論文の概要: Vulgaris: Analysis of a Corpus for Middle-Age Varieties of Italian
Language
- arxiv url: http://arxiv.org/abs/2010.05993v1
- Date: Mon, 12 Oct 2020 19:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:49:07.223671
- Title: Vulgaris: Analysis of a Corpus for Middle-Age Varieties of Italian
Language
- Title(参考訳): Vulgaris: イタリア語の中年品種コーパスの分析
- Authors: Andrea Zugarini and Matteo Tiezzi and Marco Maggini
- Abstract要約: ウルガリス(Vulgaris)は、異なる地域の著作者によるイタリアのテキストリソースのコーパスの研究を目的としたプロジェクトである。
それぞれの作品が作者に関連付けられており、著者も家族にグループ化されている。
本稿では,データに関する詳細な統計分析と,弁証学およびダイアクロニク品種におけるコーパスによる研究について述べる。
- 参考スコア(独自算出の注目度): 7.152473154227184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Italian is a Romance language that has its roots in Vulgar Latin. The birth
of the modern Italian started in Tuscany around the 14th century, and it is
mainly attributed to the works of Dante Alighieri, Francesco Petrarca and
Giovanni Boccaccio, who are among the most acclaimed authors of the medieval
age in Tuscany. However, Italy has been characterized by a high variety of
dialects, which are often loosely related to each other, due to the past
fragmentation of the territory. Italian has absorbed influences from many of
these dialects, as also from other languages due to dominion of portions of the
country by other nations, such as Spain and France. In this work we present
Vulgaris, a project aimed at studying a corpus of Italian textual resources
from authors of different regions, ranging in a time period between 1200 and
1600. Each composition is associated to its author, and authors are also
grouped in families, i.e. sharing similar stylistic/chronological
characteristics. Hence, the dataset is not only a valuable resource for
studying the diachronic evolution of Italian and the differences between its
dialects, but it is also useful to investigate stylistic aspects between single
authors. We provide a detailed statistical analysis of the data, and a
corpus-driven study in dialectology and diachronic varieties.
- Abstract(参考訳): イタリア語は俗ラテン語に起源を持つロマンス言語である。
現代のイタリア人の誕生は14世紀頃にトスカーナで始まり、主にトスカーナにおける中世の最も著名な作家の一人であるダンテ・アリギエリ、フランチェスコ・ペトロカルカ、ジョヴァンニ・ボッカッチオの著作による。
しかし、イタリアは、過去の領土の断片化により、しばしば互いに緩やかに関連づけられる、多種多様な方言によって特徴づけられている。
イタリア語はこれらの方言の多くからの影響を吸収しており、スペインやフランスなどの他国による他言語の影響も受けている。
本研究は,1200年から1600年までの期間に,異なる地域の著者によるイタリアの文献資料のコーパス調査を目的としたプロジェクトであるvulgarisを提案する。
各構成は著者に関連付けられており、著者は家族、すなわち類似の様式的・年代的特徴を共有する。
したがって、データセットはイタリア語の進化と方言の違いを研究する上で貴重な資料であるだけでなく、単一の著者間の様式的側面を研究する上でも有用である。
本稿では,データの詳細な統計解析と,方言学およびダイアクロニック多様体におけるコーパス駆動研究について述べる。
関連論文リスト
- Latent Structures of Intertextuality in French Fiction [0.0]
本稿では、計算文学研究の分野が、テクスチュアリティの研究を行う上で理想的な場所であると論じる。
我々は18世紀、19世紀、20世紀初頭の12万以上のフランスのフィクションのコーパスについて紹介する。
論文 参考訳(メタデータ) (2024-10-23T10:50:40Z) - Sampling the Swadesh List to Identify Similar Languages with Tree Spaces [0.0]
英語とラテンアルファベットの祖先は主要な関心事である。
インド・ヨーロッパ・ツリーは、多くの近代言語を原インド・ヨーロッパ語源に遡る。
論文 参考訳(メタデータ) (2024-05-10T15:46:05Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - ITALIC: An Italian Intent Classification Dataset [16.970030804283745]
ITALICはイタリア語で意図分類用に設計された最初の大規模音声データセットである。
このデータセットは、イタリア各地の70人の話者が記録した16,521人のクラウドソースオーディオサンプルで構成されている。
意図分類の結果から,大規模化や言語適応の促進により,より優れた音声モデルが得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T13:36:24Z) - Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset [77.99182201815763]
本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
論文 参考訳(メタデータ) (2022-11-14T12:39:41Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Language Varieties of Italy: Technology Challenges and Opportunities [4.199528104335137]
イタリアはヨーロッパにおける一流の言語的多様性の風景を特徴としている。
イタリアのほとんどの地方言語や方言は、数世代以内に消滅する恐れがある。
論文 参考訳(メタデータ) (2022-09-20T14:39:12Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - A large scale lexical and semantic analysis of Spanish language
variations in Twitter [2.3511629321667096]
この写本は、世界中の26のスペイン語を話す国間での語彙的・意味的な関係について広く分析している。
我々は、Twitterのジオタグ付き公開ストリームの4年間を分析し、さまざまな国のスペイン語語彙を広範囲に調査した。
論文 参考訳(メタデータ) (2021-10-12T16:21:03Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。