Fugu-MT 論文翻訳(概要): Some Languages are More Equal than Others: Probing Deeper into the Linguistic Disparity in the NLP World

論文の概要: Some Languages are More Equal than Others: Probing Deeper into the Linguistic Disparity in the NLP World

arxiv url: http://arxiv.org/abs/2210.08523v1
Date: Sun, 16 Oct 2022 12:50:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 18:26:31.125245
Title: Some Languages are More Equal than Others: Probing Deeper into the Linguistic Disparity in the NLP World
Title（参考訳）: 一部の言語は他の言語よりも等しく、nlp世界の言語格差をより深く調査する
Authors: Surangika Ranathunga and Nisansa de Silva
Abstract要約: NLP世界の言語格差は近年広く認識されている問題である。本稿では,世界の言語に存在する格差を包括的に分析する。
参考スコア（独自算出の注目度）: 2.0777058026628583
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Linguistic disparity in the NLP world is a problem that has been widely acknowledged recently. However, different facets of this problem, or the reasons behind this disparity are seldom discussed within the NLP community. This paper provides a comprehensive analysis of the disparity that exists within the languages of the world. We show that simply categorising languages considering data availability may not be always correct. Using an existing language categorisation based on speaker population and vitality, we analyse the distribution of language data resources, amount of NLP/CL research, inclusion in multilingual web-based platforms and the inclusion in pre-trained multilingual models. We show that many languages do not get covered in these resources or platforms, and even within the languages belonging to the same language group, there is wide disparity. We analyse the impact of family, geographical location, GDP and the speaker population of languages and provide possible reasons for this disparity, along with some suggestions to overcome the same.
Abstract（参考訳）: NLP世界の言語格差は近年広く認識されている問題である。しかし、この問題の異なる側面、あるいはこの格差の背景にある理由は、NLPコミュニティ内ではほとんど議論されない。本稿では,世界の言語に存在する不一致の包括的分析を行う。データアベイラビリティを考慮した言語分類が必ずしも正しいとは限らない。話者人口と活力に基づく既存の言語分類を用いて、言語データ資源の分布、NLP/CL研究の量、多言語Webベースプラットフォームへの含意、事前学習された多言語モデルへの含意を分析する。多くの言語がこれらのリソースやプラットフォームでカバーされていないことを示し、同じ言語グループに属する言語であっても、大きな違いがある。我々は、家族、地理的な位置、GDP、言語話者の人口の影響を分析し、同じことを克服するいくつかの提案とともに、この格差の可能性を秘めている。

関連論文リスト

Assessing Large Language Models in Agentic Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。この研究は、このギャップに最初に対処する。複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文参考訳（メタデータ） (2025-02-25T08:07:42Z)
Analyzing the Effect of Linguistic Similarity on Cross-Lingual Transfer: Tasks and Experimental Setups Matter [5.237387600625361]
低リソース環境下でのNLPタスクのトレーニングデータ量を増やすために、言語間転送が一般的なアプローチである。本研究では,263言語間の言語間移動を多種多様な言語群から分析する。
論文参考訳（メタデータ） (2025-01-24T13:48:10Z)
What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文参考訳（メタデータ） (2024-02-19T09:15:28Z)
What is "Typological Diversity" in NLP? [7.58293347591642]
いくつかの軸に沿って言語選択の多様性を近似する指標を導入する。歪んだ言語選択は、過度に見積もられた多言語のパフォーマンスをもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-06T18:29:39Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文参考訳（メタデータ） (2023-10-23T17:42:01Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Language Chameleon: Transformation analysis between languages using Cross-lingual Post-training based on Pre-trained language models [4.731313022026271]
本研究では,1つの低リソース言語に着目し,言語横断後学習(XPT)を用いた広範囲な評価と探索実験を行う。結果から,XPTは桁違いのデータ量で訓練された単言語モデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2022-09-14T05:20:52Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。 i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文参考訳（メタデータ） (2020-08-20T17:58:56Z)
Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文参考訳（メタデータ） (2020-05-02T04:34:37Z)
The State and Fate of Linguistic Diversity and Inclusion in the NLP World [12.936270946393483]
言語技術は、世界中の多言語主義と言語多様性の促進に寄与している。世界中で7000を超える言語のごく少数のみが、急速に進化する言語技術やアプリケーションで表現されている。
論文参考訳（メタデータ） (2020-04-20T07:19:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。