論文の概要: Fairness in Language Models Beyond English: Gaps and Challenges
- arxiv url: http://arxiv.org/abs/2302.12578v1
- Date: Fri, 24 Feb 2023 11:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 13:57:54.895656
- Title: Fairness in Language Models Beyond English: Gaps and Challenges
- Title(参考訳): 英語以外の言語モデルの公平性:ギャップと課題
- Authors: Krithika Ramesh, Sunayana Sitaram, Monojit Choudhury
- Abstract要約: 本稿では,多言語・非英語の文脈における公平性について調査する。
これは、現在の研究の欠点と、英語向けに設計された手法が直面する困難を強調している。
バイアスの測定と緩和は、現在のデータセット駆動のプラクティスを超えて進化する必要があります。
- 参考スコア(独自算出の注目度): 11.62418844341466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With language models becoming increasingly ubiquitous, it has become
essential to address their inequitable treatment of diverse demographic groups
and factors. Most research on evaluating and mitigating fairness harms has been
concentrated on English, while multilingual models and non-English languages
have received comparatively little attention. In this paper, we survey
different aspects of fairness in languages beyond English and multilingual
contexts. This paper presents a survey of fairness in multilingual and
non-English contexts, highlighting the shortcomings of current research and the
difficulties faced by methods designed for English. We contend that the
multitude of diverse cultures and languages across the world makes it
infeasible to achieve comprehensive coverage in terms of constructing fairness
datasets. Thus, the measurement and mitigation of biases must evolve beyond the
current dataset-driven practices that are narrowly focused on specific
dimensions and types of biases and, therefore, impossible to scale across
languages and cultures.
- Abstract(参考訳): 言語モデルがますますユビキタス化するにつれ、多様な人口集団や要因に対する不平等な扱いに対処することが不可欠になっている。
フェアネス障害の評価と緩和に関するほとんどの研究は英語に集中しているが、多言語モデルや非英語言語は比較的ほとんど注目されていない。
本稿では,英語や多言語以外の言語における公平性の異なる側面について検討する。
本稿では,多言語・非英語の文脈におけるフェアネスに関する調査を行い,現在の研究の欠点と,英語のための手法が直面する課題を明らかにする。
世界中の多種多様な文化や言語が、公平なデータセットの構築において包括的カバレッジを達成するのを困難にしている、と我々は主張する。
したがって、バイアスの測定と緩和は、特定の次元やバイアスの種類に限定した、現在のデータセット駆動のプラクティスを超えて進化しなければならず、そのため言語や文化にまたがるスケーリングは不可能である。
関連論文リスト
- Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
本調査は、低リソース言語誤報検出に関する現在の研究の概要を概観する。
これらの領域で使用されている既存のデータセット、方法論、ツールをレビューし、データリソース、モデル開発、文化的・言語的文脈、現実世界の応用、研究の取り組みに関する重要な課題を特定します。
本研究は,多様な言語・文化的文脈における誤情報に対処できる,堅牢で包括的なシステムの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - On Evaluating and Mitigating Gender Biases in Multilingual Settings [5.248564173595024]
複数言語設定におけるバイアスの評価と緩和に関する課題について検討する。
まず,事前学習したマスキング言語モデルにおいて,性別バイアスを評価するベンチマークを作成する。
我々は、様々なデバイアス法を英語以上に拡張し、SOTAの大規模多言語モデルの有効性を評価する。
論文 参考訳(メタデータ) (2023-07-04T06:23:04Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。