論文の概要: Fairness in Language Models Beyond English: Gaps and Challenges
- arxiv url: http://arxiv.org/abs/2302.12578v2
- Date: Tue, 28 Feb 2023 08:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 12:36:50.670904
- Title: Fairness in Language Models Beyond English: Gaps and Challenges
- Title(参考訳): 英語以外の言語モデルの公平性:ギャップと課題
- Authors: Krithika Ramesh, Sunayana Sitaram, Monojit Choudhury
- Abstract要約: 本稿では,多言語・非英語の文脈における公平性について調査する。
これは、現在の研究の欠点と、英語向けに設計された手法が直面する困難を強調している。
- 参考スコア(独自算出の注目度): 11.62418844341466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With language models becoming increasingly ubiquitous, it has become
essential to address their inequitable treatment of diverse demographic groups
and factors. Most research on evaluating and mitigating fairness harms has been
concentrated on English, while multilingual models and non-English languages
have received comparatively little attention. This paper presents a survey of
fairness in multilingual and non-English contexts, highlighting the
shortcomings of current research and the difficulties faced by methods designed
for English. We contend that the multitude of diverse cultures and languages
across the world makes it infeasible to achieve comprehensive coverage in terms
of constructing fairness datasets. Thus, the measurement and mitigation of
biases must evolve beyond the current dataset-driven practices that are
narrowly focused on specific dimensions and types of biases and, therefore,
impossible to scale across languages and cultures.
- Abstract(参考訳): 言語モデルがますますユビキタス化するにつれ、多様な人口集団や要因に対する不平等な扱いに対処することが不可欠になっている。
フェアネス障害の評価と緩和に関するほとんどの研究は英語に集中しているが、多言語モデルや非英語言語は比較的ほとんど注目されていない。
本稿では,多言語・非英語の文脈におけるフェアネスに関する調査を行い,現在の研究の欠点と,英語のための手法が直面する課題を明らかにする。
世界中の多種多様な文化や言語が、公平なデータセットの構築において包括的カバレッジを達成するのを困難にしている、と我々は主張する。
したがって、バイアスの測定と緩和は、特定の次元やバイアスの種類に限定した、現在のデータセット駆動のプラクティスを超えて進化しなければならず、そのため言語や文化にまたがるスケーリングは不可能である。
関連論文リスト
- The Shrinking Landscape of Linguistic Diversity in the Age of Large Language Models [7.811355338367627]
大規模言語モデル (LLMs) は, 言語多様性の顕著な低下と関係があることが示唆された。
テキストの中核的な内容は、LLMがテキストを洗練・書き直しする際に保持されるが、書体スタイルを均質化するだけでなく、特定の支配的特徴やバイアスを選択的に増幅し、他を抑圧する方法でスタイル的要素を変更することも示している。
論文 参考訳(メタデータ) (2025-02-16T20:51:07Z) - From No to Know: Taxonomy, Challenges, and Opportunities for Negation Understanding in Multimodal Foundation Models [48.68342037881584]
否定は、欠如、否定、矛盾を含む言語構造であり、多言語多モーダル基盤モデルにとって重要な課題である。
本稿では, 否定構造を包括的に分類し, 構造的, 意味的, 文化的要因がマルチモーダル基盤モデルにどのように影響するかを考察する。
我々は、特別なベンチマーク、言語固有のトークン化、きめ細かい注意機構、高度なマルチモーダルアーキテクチャを提唱する。
論文 参考訳(メタデータ) (2025-02-10T16:55:13Z) - Scaling for Fairness? Analyzing Model Size, Data Composition, and Multilinguality in Vision-Language Bias [14.632649933582648]
人気のVLMであるCLIPとそのオープンソース版において,データセット構成,モデルサイズ,多言語学習が性別や人種的偏見に与える影響について検討した。
社会的認知バイアスを評価するために,社会的に帯電した用語を特徴とする顔画像のゼロショット性能を測定した。
論文 参考訳(メタデータ) (2025-01-22T21:08:30Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - On Evaluating and Mitigating Gender Biases in Multilingual Settings [5.248564173595024]
複数言語設定におけるバイアスの評価と緩和に関する課題について検討する。
まず,事前学習したマスキング言語モデルにおいて,性別バイアスを評価するベンチマークを作成する。
我々は、様々なデバイアス法を英語以上に拡張し、SOTAの大規模多言語モデルの有効性を評価する。
論文 参考訳(メタデータ) (2023-07-04T06:23:04Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。