論文の概要: The Past, Present, and Future of Typological Databases in NLP
- arxiv url: http://arxiv.org/abs/2310.13440v1
- Date: Fri, 20 Oct 2023 12:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:04:26.554757
- Title: The Past, Present, and Future of Typological Databases in NLP
- Title(参考訳): NLPにおけるタイポロジーデータベースの過去・現在・未来
- Authors: Emi Baylor and Esther Ploeger and Johannes Bjerva
- Abstract要約: タイポロジー情報は、NLPモデルの開発において有益である可能性がある。
現在の大規模な類型データベース、特にWALSとGrambankは、互いに不整合であり、他の類型情報ソースとも矛盾している。
我々は,類型的データベースと資源間の相違点とそのNLPにおける利用を体系的に検討することによって,この問題を浮き彫りにした。
- 参考スコア(独自算出の注目度): 2.968112652976397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typological information has the potential to be beneficial in the development
of NLP models, particularly for low-resource languages. Unfortunately, current
large-scale typological databases, notably WALS and Grambank, are inconsistent
both with each other and with other sources of typological information, such as
linguistic grammars. Some of these inconsistencies stem from coding errors or
linguistic variation, but many of the disagreements are due to the discrete
categorical nature of these databases. We shed light on this issue by
systematically exploring disagreements across typological databases and
resources, and their uses in NLP, covering the past and present. We next
investigate the future of such work, offering an argument that a continuous
view of typological features is clearly beneficial, echoing recommendations
from linguistics. We propose that such a view of typology has significant
potential in the future, including in language modeling in low-resource
scenarios.
- Abstract(参考訳): タイポロジー情報は、特に低リソース言語において、NLPモデルの開発において有益である可能性がある。
残念なことに、現在の大規模な類型データベース、特にWALSとGrambankは、言語文法のような他の類型情報ソースと相容れない。
これらの矛盾のいくつかはコーディングエラーや言語的変異に起因するが、多くの相違点はこれらのデータベースの離散的な分類的性質に起因する。
タイポロジーデータベースとリソースの相違点とnlpにおけるそれらの利用を体系的に検討することで,この問題を浮き彫りにした。
次に,このような研究の将来を考察し,類型的特徴の連続的視点が明らかに有益であるという議論を提示し,言語学からの勧告を反映する。
そこで本稿では,低リソースシナリオにおける言語モデリングを含む,このような型論の視点が将来大きな可能性を示唆する。
関連論文リスト
- Multilingual Gradient Word-Order Typology from Universal Dependencies [2.968112652976397]
WALSやGrambankなど、既存の類型的データベースは、主に分類形式に起因する不整合に悩まされている。
分類データではなく、連続価値データからなる新しいシードデータセットを導入することで、言語の多様性をよりよく反映できる。
論文 参考訳(メタデータ) (2024-02-02T15:54:19Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Language Embeddings Sometimes Contain Typological Generalizations [0.0]
我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。
学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
論文 参考訳(メタデータ) (2023-01-19T15:09:59Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Does Typological Blinding Impede Cross-Lingual Sharing? [31.20201199491578]
入力データから、言語間設定で訓練されたモデルが、タイプ的手がかりを拾い上げることを示す。
言語間の共有とパフォーマンスへの影響について検討する。
論文 参考訳(メタデータ) (2021-01-28T09:32:08Z) - SIGTYP 2020 Shared Task: Prediction of Typological Features [78.95376120154083]
タイポロジーKBが広く採用されるのを妨げる大きな欠点は、人口が少ないことである。
類型的特徴は相互に相関することが多いため、それらを予測し、自動的に類型的KBを投入することができる。
全体として、このタスクは5つのチームから8つの応募を惹きつけた。
論文 参考訳(メタデータ) (2020-10-16T08:47:24Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。