論文の概要: Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World
- arxiv url: http://arxiv.org/abs/2210.08523v1
- Date: Sun, 16 Oct 2022 12:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:26:31.125245
- Title: Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World
- Title(参考訳): 一部の言語は他の言語よりも等しく、nlp世界の言語格差をより深く調査する
- Authors: Surangika Ranathunga and Nisansa de Silva
- Abstract要約: NLP世界の言語格差は近年広く認識されている問題である。
本稿では,世界の言語に存在する格差を包括的に分析する。
- 参考スコア(独自算出の注目度): 2.0777058026628583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linguistic disparity in the NLP world is a problem that has been widely
acknowledged recently. However, different facets of this problem, or the
reasons behind this disparity are seldom discussed within the NLP community.
This paper provides a comprehensive analysis of the disparity that exists
within the languages of the world. We show that simply categorising languages
considering data availability may not be always correct. Using an existing
language categorisation based on speaker population and vitality, we analyse
the distribution of language data resources, amount of NLP/CL research,
inclusion in multilingual web-based platforms and the inclusion in pre-trained
multilingual models. We show that many languages do not get covered in these
resources or platforms, and even within the languages belonging to the same
language group, there is wide disparity. We analyse the impact of family,
geographical location, GDP and the speaker population of languages and provide
possible reasons for this disparity, along with some suggestions to overcome
the same.
- Abstract(参考訳): NLP世界の言語格差は近年広く認識されている問題である。
しかし、この問題の異なる側面、あるいはこの格差の背景にある理由は、NLPコミュニティ内ではほとんど議論されない。
本稿では,世界の言語に存在する不一致の包括的分析を行う。
データアベイラビリティを考慮した言語分類が必ずしも正しいとは限らない。
話者人口と活力に基づく既存の言語分類を用いて、言語データ資源の分布、NLP/CL研究の量、多言語Webベースプラットフォームへの含意、事前学習された多言語モデルへの含意を分析する。
多くの言語がこれらのリソースやプラットフォームでカバーされていないことを示し、同じ言語グループに属する言語であっても、大きな違いがある。
我々は、家族、地理的な位置、GDP、言語話者の人口の影響を分析し、同じことを克服するいくつかの提案とともに、この格差の可能性を秘めている。
関連論文リスト
- Analyzing the Effect of Linguistic Similarity on Cross-Lingual Transfer: Tasks and Experimental Setups Matter [5.237387600625361]
低リソース環境下でのNLPタスクのトレーニングデータ量を増やすために、言語間転送が一般的なアプローチである。
本研究では,多種多様な言語群からの266言語間の言語間移動を解析する。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Language Chameleon: Transformation analysis between languages using
Cross-lingual Post-training based on Pre-trained language models [4.731313022026271]
本研究では,1つの低リソース言語に着目し,言語横断後学習(XPT)を用いた広範囲な評価と探索実験を行う。
結果から,XPTは桁違いのデータ量で訓練された単言語モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-09-14T05:20:52Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - The State and Fate of Linguistic Diversity and Inclusion in the NLP
World [12.936270946393483]
言語技術は、世界中の多言語主義と言語多様性の促進に寄与している。
世界中で7000を超える言語のごく少数のみが、急速に進化する言語技術やアプリケーションで表現されている。
論文 参考訳(メタデータ) (2020-04-20T07:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。