論文の概要: What is "Typological Diversity" in NLP?
- arxiv url: http://arxiv.org/abs/2402.04222v3
- Date: Sun, 16 Jun 2024 07:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 06:25:35.781056
- Title: What is "Typological Diversity" in NLP?
- Title(参考訳): NLPにおけるTypological Diversityとは何か?
- Authors: Esther Ploeger, Wessel Poelman, Miryam de Lhoneux, Johannes Bjerva,
- Abstract要約: いくつかの軸に沿って言語選択の多様性を近似する指標を導入する。
歪んだ言語選択は、過度に見積もられた多言語のパフォーマンスをもたらす可能性があることを示す。
- 参考スコア(独自算出の注目度): 7.58293347591642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The NLP research community has devoted increased attention to languages beyond English, resulting in considerable improvements for multilingual NLP. However, these improvements only apply to a small subset of the world's languages. Aiming to extend this, an increasing number of papers aspires to enhance generalizable multilingual performance across languages. To this end, linguistic typology is commonly used to motivate language selection, on the basis that a broad typological sample ought to imply generalization across a broad range of languages. These selections are often described as being 'typologically diverse'. In this work, we systematically investigate NLP research that includes claims regarding 'typological diversity'. We find there are no set definitions or criteria for such claims. We introduce metrics to approximate the diversity of language selection along several axes and find that the results vary considerably across papers. Crucially, we show that skewed language selection can lead to overestimated multilingual performance. We recommend future work to include an operationalization of 'typological diversity' that empirically justifies the diversity of language samples.
- Abstract(参考訳): NLP研究コミュニティは英語以外の言語に注目を集中させ、多言語NLPの大幅な改善をもたらした。
しかし、これらの改善は世界の言語の小さなサブセットにのみ適用される。
これを拡張するために、言語間の一般化可能な多言語パフォーマンス向上を目指す論文が増えている。
この目的のために、言語型学は、広範囲の言語にまたがる一般化を暗示する広範な類型学的なサンプルに基づいて、言語選択を動機付けるために一般的に用いられる。
これらの選択は、しばしば「分類学的に多様」と表現される。
本研究では,「ティポロジー多様性」に関する主張を含むNLP研究を体系的に研究する。
このような主張には明確な定義や基準は存在しない。
いくつかの軸に沿って言語選択の多様性を近似するためにメトリクスを導入し、その結果が論文によって大きく異なることを発見した。
重要なことは、歪んだ言語選択が過大評価された多言語のパフォーマンスをもたらす可能性があることを示している。
言語サンプルの多様性を実証的に正当化する「タイポロジー多様性」の運用を含めることを推奨する。
関連論文リスト
- A Principled Framework for Evaluating on Typologically Diverse Languages [6.670393338187622]
本稿では,多種多様言語を選択するための言語サンプリングフレームワークを提案する。
我々の体系的手法は、NLPの従来の方法よりも、型論的に多様な言語選択を一貫して取り出すことがわかった。
論文 参考訳(メタデータ) (2024-07-06T09:31:02Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。