論文の概要: PILA: A Historical-Linguistic Dataset of Proto-Italic and Latin
- arxiv url: http://arxiv.org/abs/2404.16341v1
- Date: Thu, 25 Apr 2024 05:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:48:28.142512
- Title: PILA: A Historical-Linguistic Dataset of Proto-Italic and Latin
- Title(参考訳): PILA: 原イタリア語とラテン語の歴史的言語学的データセット
- Authors: Stephen Bothwell, Brian DuSell, David Chiang, Brian Krostenko,
- Abstract要約: 原イタリア語からラテン語のデータセットを導入し、原イタリア語とラテン語の約3,000の形式からなる。
従来の計算歴史的言語学の課題の2つに基づいて,PILAのベースライン結果を示す。
PILAの他の歴史的言語学的データセットの強化能力を示す。
- 参考スコア(独自算出の注目度): 11.820097994590672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational historical linguistics seeks to systematically understand processes of sound change, including during periods at which little to no formal recording of language is attested. At the same time, few computational resources exist which deeply explore phonological and morphological connections between proto-languages and their descendants. This is particularly true for the family of Italic languages. To assist historical linguists in the study of Italic sound change, we introduce the Proto-Italic to Latin (PILA) dataset, which consists of roughly 3,000 pairs of forms from Proto-Italic and Latin. We provide a detailed description of how our dataset was created and organized. Then, we exhibit PILA's value in two ways. First, we present baseline results for PILA on a pair of traditional computational historical linguistics tasks. Second, we demonstrate PILA's capability for enhancing other historical-linguistic datasets through a dataset compatibility study.
- Abstract(参考訳): 計算史言語学は、言語の公式な記録がほとんど、あるいは全く証明されていない期間を含む、音の変化の過程を体系的に理解しようとする。
同時に、原語とその子孫の間の音韻学的・形態学的関係を深く探求する計算資源はほとんど存在しない。
これは特にイタリック語族に当てはまる。
イタリア語の音変化の研究において歴史的言語学者を支援するため,約3,000対の形状からなるイタリア語からラテン語へのデータセット(PILA)を導入する。
データセットの作成と編成方法について、詳しく説明しています。
そしてPILAの価値を2つの方法で示す。
まず,従来の計算歴史的言語学の課題の2つについて,PILAのベースライン結果を示す。
第2に、データセット互換性研究を通じて、他の歴史的言語学的データセットを拡張できるPILAの能力を実証する。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - A Greek Parliament Proceedings Dataset for Computational Linguistics and
Political Analysis [4.396860522241306]
我々は,1989年から2020年までの期間を経時的に延ばす,ギリシャ議会紀要のキュレートされたデータセットを紹介した。
5,355の議会記録ファイルから抽出された、100万以上のスピーチと豊富なメタデータで構成されている。
論文 参考訳(メタデータ) (2022-10-23T23:23:28Z) - Applying Feature Underspecified Lexicon Phonological Features in
Multilingual Text-to-Speech [1.9688095374610102]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングは、2つの言語でネイティブ、非ネイティブ、コードスイッチングされたスピーチを成功させるかどうかテストされた。
論文 参考訳(メタデータ) (2022-04-14T21:04:55Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Applying Phonological Features in Multilingual Text-To-Speech [2.567123525861164]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングが、2つの言語でネイティブ、非ネイティブ、コードスイッチトされた音声の生成を成功させるかどうかを検証した。
論文 参考訳(メタデータ) (2021-10-07T16:37:01Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Deciphering Undersegmented Ancient Scripts Using Phonetic Prior [31.707254394215283]
ほとんどの未解読失語言語は、重要な解読課題を引き起こす2つの特徴を持っている。
豊かな言語制約を基礎として,これらの課題に対処するモデルを提案する。
我々は、解読された言語(ゴシック語、ウガル語)と未解読言語(イベリア語)の両方でモデルを評価する。
論文 参考訳(メタデータ) (2020-10-21T15:03:52Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - In search of isoglosses: continuous and discrete language embeddings in
Slavic historical phonology [0.0]
私たちは3種類の言語埋め込み(dense, sigmoid, ストレートスルー)を採用しています。
Sigmoid モデルの言語埋め込みは,従来のスラヴ語のサブグループ化と最強の一致を示している。
論文 参考訳(メタデータ) (2020-05-27T18:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。