論文の概要: Vulgaris: Analysis of a Corpus for Middle-Age Varieties of Italian
Language
- arxiv url: http://arxiv.org/abs/2010.05993v1
- Date: Mon, 12 Oct 2020 19:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:49:07.223671
- Title: Vulgaris: Analysis of a Corpus for Middle-Age Varieties of Italian
Language
- Title(参考訳): Vulgaris: イタリア語の中年品種コーパスの分析
- Authors: Andrea Zugarini and Matteo Tiezzi and Marco Maggini
- Abstract要約: ウルガリス(Vulgaris)は、異なる地域の著作者によるイタリアのテキストリソースのコーパスの研究を目的としたプロジェクトである。
それぞれの作品が作者に関連付けられており、著者も家族にグループ化されている。
本稿では,データに関する詳細な統計分析と,弁証学およびダイアクロニク品種におけるコーパスによる研究について述べる。
- 参考スコア(独自算出の注目度): 7.152473154227184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Italian is a Romance language that has its roots in Vulgar Latin. The birth
of the modern Italian started in Tuscany around the 14th century, and it is
mainly attributed to the works of Dante Alighieri, Francesco Petrarca and
Giovanni Boccaccio, who are among the most acclaimed authors of the medieval
age in Tuscany. However, Italy has been characterized by a high variety of
dialects, which are often loosely related to each other, due to the past
fragmentation of the territory. Italian has absorbed influences from many of
these dialects, as also from other languages due to dominion of portions of the
country by other nations, such as Spain and France. In this work we present
Vulgaris, a project aimed at studying a corpus of Italian textual resources
from authors of different regions, ranging in a time period between 1200 and
1600. Each composition is associated to its author, and authors are also
grouped in families, i.e. sharing similar stylistic/chronological
characteristics. Hence, the dataset is not only a valuable resource for
studying the diachronic evolution of Italian and the differences between its
dialects, but it is also useful to investigate stylistic aspects between single
authors. We provide a detailed statistical analysis of the data, and a
corpus-driven study in dialectology and diachronic varieties.
- Abstract(参考訳): イタリア語は俗ラテン語に起源を持つロマンス言語である。
現代のイタリア人の誕生は14世紀頃にトスカーナで始まり、主にトスカーナにおける中世の最も著名な作家の一人であるダンテ・アリギエリ、フランチェスコ・ペトロカルカ、ジョヴァンニ・ボッカッチオの著作による。
しかし、イタリアは、過去の領土の断片化により、しばしば互いに緩やかに関連づけられる、多種多様な方言によって特徴づけられている。
イタリア語はこれらの方言の多くからの影響を吸収しており、スペインやフランスなどの他国による他言語の影響も受けている。
本研究は,1200年から1600年までの期間に,異なる地域の著者によるイタリアの文献資料のコーパス調査を目的としたプロジェクトであるvulgarisを提案する。
各構成は著者に関連付けられており、著者は家族、すなわち類似の様式的・年代的特徴を共有する。
したがって、データセットはイタリア語の進化と方言の違いを研究する上で貴重な資料であるだけでなく、単一の著者間の様式的側面を研究する上でも有用である。
本稿では,データの詳細な統計解析と,方言学およびダイアクロニック多様体におけるコーパス駆動研究について述べる。
関連論文リスト
- Graecia capta ferum victorem cepit. Detecting Latin Allusions to Ancient
Greek Literature [23.786649328915097]
本稿では古典哲学に適した三言語文文モデルSPhilBERTaを紹介する。
古代ギリシア語、ラテン語、英語にまたがる言語間の意味理解と同一の文の同定に優れる。
我々は、英語のテキストを自動的に古代ギリシア語に翻訳することで、新しいトレーニングデータを生成する。
論文 参考訳(メタデータ) (2023-08-23T08:54:05Z) - ITALIC: An Italian Intent Classification Dataset [16.970030804283745]
ITALICはイタリア語で意図分類用に設計された最初の大規模音声データセットである。
このデータセットは、イタリア各地の70人の話者が記録した16,521人のクラウドソースオーディオサンプルで構成されている。
意図分類の結果から,大規模化や言語適応の促進により,より優れた音声モデルが得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T13:36:24Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset [77.99182201815763]
本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
論文 参考訳(メタデータ) (2022-11-14T12:39:41Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Language Varieties of Italy: Technology Challenges and Opportunities [4.199528104335137]
イタリアはヨーロッパにおける一流の言語的多様性の風景を特徴としている。
イタリアのほとんどの地方言語や方言は、数世代以内に消滅する恐れがある。
論文 参考訳(メタデータ) (2022-09-20T14:39:12Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - A large scale lexical and semantic analysis of Spanish language
variations in Twitter [2.3511629321667096]
この写本は、世界中の26のスペイン語を話す国間での語彙的・意味的な関係について広く分析している。
我々は、Twitterのジオタグ付き公開ストリームの4年間を分析し、さまざまな国のスペイン語語彙を広範囲に調査した。
論文 参考訳(メタデータ) (2021-10-12T16:21:03Z) - Semantics of European poetry is shaped by conservative forces: The
relationship between poetic meter and meaning in accentual-syllabic verse [0.0]
我々は1819世紀のヨーロッパ文学において、詩のメーターと意味論の永続的な関連性を示す最初の大規模な公式な証拠を提供する。
本研究は,15万詩の抽象的意味的特徴を用いた一連のクラスタリング実験を通して,この関係を追究するものである。
論文 参考訳(メタデータ) (2021-09-15T08:20:01Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。