論文の概要: Evaluating Inclusivity, Equity, and Accessibility of NLP Technology: A
Case Study for Indian Languages
- arxiv url: http://arxiv.org/abs/2205.12676v1
- Date: Wed, 25 May 2022 11:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 14:37:49.133182
- Title: Evaluating Inclusivity, Equity, and Accessibility of NLP Technology: A
Case Study for Indian Languages
- Title(参考訳): nlp技術の独占性、公平性、アクセシビリティの評価--インド言語を事例として
- Authors: Simran Khanuja, Sebastian Ruder, Partha Talukdar
- Abstract要約: NLP技術が広く適用され、有用になるためには、世界中のユーザーを包含する必要がある。
本研究では,NLP技術を3次元すべてにわたって評価し,利用者の多様性を定量化する評価パラダイムを提案する。
- 参考スコア(独自算出の注目度): 35.86100962711644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order for NLP technology to be widely applicable and useful, it needs to
be inclusive of users across the world's languages, equitable, i.e., not unduly
biased towards any particular language, and accessible to users, particularly
in low-resource settings where compute constraints are common. In this paper,
we propose an evaluation paradigm that assesses NLP technologies across all
three dimensions, hence quantifying the diversity of users they can serve.
While inclusion and accessibility have received attention in recent literature,
equity is currently unexplored. We propose to address this gap using the Gini
coefficient, a well-established metric used for estimating societal wealth
inequality. Using our paradigm, we highlight the distressed state of diversity
of current technologies for Indian (IN) languages, motivated by their
linguistic diversity and large, varied speaker population. To improve upon
these metrics, we demonstrate the importance of region-specific choices in
model building and dataset creation and also propose a novel approach to
optimal resource allocation during fine-tuning. Finally, we discuss steps that
must be taken to mitigate these biases and call upon the community to
incorporate our evaluation paradigm when building linguistically diverse
technologies.
- Abstract(参考訳): NLP技術が広く適用され有用になるためには、世界の言語全体、すなわち任意の言語に対して不規則に偏りがなく、特に計算制約が一般的である低リソース環境において、ユーザに対してアクセス可能である必要がある。
本稿では,NLP技術を3次元にわたって評価し,利用者の多様性を定量化する評価パラダイムを提案する。
インクルージョンとアクセシビリティは近年の文献で注目されているが、現在株式は未調査である。
社会的な富の不平等を推定するためによく確立された指標であるジニ係数を用いて,このギャップに対処することを提案する。
本パラダイムを用いて,インド(IN)言語の言語多様性と話者人口の多様さに動機づけられた,現在の技術の多様さを強調した。
これらの指標を改善するために,モデル構築とデータセット作成における領域固有の選択の重要性を示すとともに,微調整時の資源配分を最適化するための新しいアプローチを提案する。
最後に,これらのバイアスを軽減するために必要なステップについて議論し,言語的に多様な技術を構築する際に,評価パラダイムを取り入れるようコミュニティに呼びかける。
関連論文リスト
- A Capabilities Approach to Studying Bias and Harm in Language Technologies [4.135516576952934]
我々は、能力アプローチのレンズを通して、言語技術への公平さ、偏見、包摂性を考察する。
能力のアプローチは、人々が達成できるものに集中し、社会的、政治的、経済的文脈を考慮に入れている。
本稿では,機能アプローチ,多言語・多文化的評価との関係,言語技術の有害性の定義と評価において,コミュニティメンバと有意義な協力を得られるか,について詳述する。
論文 参考訳(メタデータ) (2024-11-06T22:46:13Z) - Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文 参考訳(メタデータ) (2024-02-22T23:31:22Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Some Languages are More Equal than Others: Probing Deeper into the
Linguistic Disparity in the NLP World [2.0777058026628583]
NLP世界の言語格差は近年広く認識されている問題である。
本稿では,世界の言語に存在する格差を包括的に分析する。
論文 参考訳(メタデータ) (2022-10-16T12:50:30Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - Debiasing Multilingual Word Embeddings: A Case Study of Three Indian
Languages [9.208381487410191]
単言語および多言語設定に対する偏りと偏りの異なるアプローチを定量化するための異なる手法を検討する。
提案手法は,3つのインドの言語に対する多言語埋め込みを曖昧にするための最先端性能を確立する。
論文 参考訳(メタデータ) (2021-07-21T16:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。