論文の概要: Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World
- arxiv url: http://arxiv.org/abs/2210.08523v1
- Date: Sun, 16 Oct 2022 12:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:26:31.125245
- Title: Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World
- Title(参考訳): 一部の言語は他の言語よりも等しく、nlp世界の言語格差をより深く調査する
- Authors: Surangika Ranathunga and Nisansa de Silva
- Abstract要約: NLP世界の言語格差は近年広く認識されている問題である。
本稿では,世界の言語に存在する格差を包括的に分析する。
- 参考スコア(独自算出の注目度): 2.0777058026628583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linguistic disparity in the NLP world is a problem that has been widely
acknowledged recently. However, different facets of this problem, or the
reasons behind this disparity are seldom discussed within the NLP community.
This paper provides a comprehensive analysis of the disparity that exists
within the languages of the world. We show that simply categorising languages
considering data availability may not be always correct. Using an existing
language categorisation based on speaker population and vitality, we analyse
the distribution of language data resources, amount of NLP/CL research,
inclusion in multilingual web-based platforms and the inclusion in pre-trained
multilingual models. We show that many languages do not get covered in these
resources or platforms, and even within the languages belonging to the same
language group, there is wide disparity. We analyse the impact of family,
geographical location, GDP and the speaker population of languages and provide
possible reasons for this disparity, along with some suggestions to overcome
the same.
- Abstract(参考訳): NLP世界の言語格差は近年広く認識されている問題である。
しかし、この問題の異なる側面、あるいはこの格差の背景にある理由は、NLPコミュニティ内ではほとんど議論されない。
本稿では,世界の言語に存在する不一致の包括的分析を行う。
データアベイラビリティを考慮した言語分類が必ずしも正しいとは限らない。
話者人口と活力に基づく既存の言語分類を用いて、言語データ資源の分布、NLP/CL研究の量、多言語Webベースプラットフォームへの含意、事前学習された多言語モデルへの含意を分析する。
多くの言語がこれらのリソースやプラットフォームでカバーされていないことを示し、同じ言語グループに属する言語であっても、大きな違いがある。
我々は、家族、地理的な位置、GDP、言語話者の人口の影響を分析し、同じことを克服するいくつかの提案とともに、この格差の可能性を秘めている。
関連論文リスト
- What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - What is "Typological Diversity" in NLP? [7.58293347591642]
いくつかの軸に沿って言語選択の多様性を近似する指標を導入する。
歪んだ言語選択は、過度に見積もられた多言語のパフォーマンスをもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-06T18:29:39Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Language Chameleon: Transformation analysis between languages using
Cross-lingual Post-training based on Pre-trained language models [4.731313022026271]
本研究では,1つの低リソース言語に着目し,言語横断後学習(XPT)を用いた広範囲な評価と探索実験を行う。
結果から,XPTは桁違いのデータ量で訓練された単言語モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-09-14T05:20:52Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - The State and Fate of Linguistic Diversity and Inclusion in the NLP
World [12.936270946393483]
言語技術は、世界中の多言語主義と言語多様性の促進に寄与している。
世界中で7000を超える言語のごく少数のみが、急速に進化する言語技術やアプリケーションで表現されている。
論文 参考訳(メタデータ) (2020-04-20T07:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。