論文の概要: Evaluating the Diversity, Equity and Inclusion of NLP Technology: A Case
Study for Indian Languages
- arxiv url: http://arxiv.org/abs/2205.12676v3
- Date: Wed, 12 Apr 2023 14:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 19:03:50.874756
- Title: Evaluating the Diversity, Equity and Inclusion of NLP Technology: A Case
Study for Indian Languages
- Title(参考訳): NLP技術の多様性・等価性・包含性の評価:インドの言語を事例として
- Authors: Simran Khanuja, Sebastian Ruder, Partha Talukdar
- Abstract要約: NLP技術が広く適用され、公正で有用になるためには、世界中の言語で多様な話者を提供する必要がある。
本研究では,NLP技術を3次元にわたって評価する評価パラダイムを提案する。
- 参考スコア(独自算出の注目度): 35.86100962711644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order for NLP technology to be widely applicable, fair, and useful, it
needs to serve a diverse set of speakers across the world's languages, be
equitable, i.e., not unduly biased towards any particular language, and be
inclusive of all users, particularly in low-resource settings where compute
constraints are common. In this paper, we propose an evaluation paradigm that
assesses NLP technologies across all three dimensions. While diversity and
inclusion have received attention in recent literature, equity is currently
unexplored. We propose to address this gap using the Gini coefficient, a
well-established metric used for estimating societal wealth inequality. Using
our paradigm, we highlight the distressed state of current technologies for
Indian (IN) languages (a linguistically large and diverse set, with a varied
speaker population), across all three dimensions. To improve upon these
metrics, we demonstrate the importance of region-specific choices in model
building and dataset creation, and more importantly, propose a novel,
generalisable approach to optimal resource allocation during fine-tuning.
Finally, we discuss steps to mitigate these biases and encourage the community
to employ multi-faceted evaluation when building linguistically diverse and
equitable technologies.
- Abstract(参考訳): NLP技術が広く適用され、公平で有用なものにするためには、世界中の様々な話者、すなわち特定の言語に不適切な偏見を持たず、特に計算制約が一般的である低リソース環境において、すべてのユーザを包括的に扱う必要がある。
本稿では,NLP技術を3次元にわたって評価する評価パラダイムを提案する。
多様性と包摂性は近年の文献で注目されているが、株式は現在未調査である。
社会的な富の不平等を推定するためによく確立された指標であるジニ係数を用いて,このギャップに対処することを提案する。
本パラダイムでは,インド(IN)言語(言語的に大きく多様であり,話者数も様々である)の現在の技術の現状を3次元にわたって強調する。
これらのメトリクスを改善するために,モデル構築とデータセット作成において,地域固有の選択の重要性を実証し,さらに重要なこととして,最適リソース割り当てのための新しい汎用的手法を提案する。
最後に,これらのバイアスを緩和するためのステップについて議論し,言語学的に多様で平等な技術を構築する際に,多面的な評価を行うことをコミュニティに促す。
関連論文リスト
- A Capabilities Approach to Studying Bias and Harm in Language Technologies [4.135516576952934]
我々は、能力アプローチのレンズを通して、言語技術への公平さ、偏見、包摂性を考察する。
能力のアプローチは、人々が達成できるものに集中し、社会的、政治的、経済的文脈を考慮に入れている。
本稿では,機能アプローチ,多言語・多文化的評価との関係,言語技術の有害性の定義と評価において,コミュニティメンバと有意義な協力を得られるか,について詳述する。
論文 参考訳(メタデータ) (2024-11-06T22:46:13Z) - Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文 参考訳(メタデータ) (2024-02-22T23:31:22Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World [2.0777058026628583]
NLP世界の言語格差は近年広く認識されている問題である。
本稿では,世界の言語に存在する格差を包括的に分析する。
論文 参考訳(メタデータ) (2022-10-16T12:50:30Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - Debiasing Multilingual Word Embeddings: A Case Study of Three Indian
Languages [9.208381487410191]
単言語および多言語設定に対する偏りと偏りの異なるアプローチを定量化するための異なる手法を検討する。
提案手法は,3つのインドの言語に対する多言語埋め込みを曖昧にするための最先端性能を確立する。
論文 参考訳(メタデータ) (2021-07-21T16:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。