論文の概要: Failure of contextual invariance in gender inference with large language models
- arxiv url: http://arxiv.org/abs/2603.23485v1
- Date: Tue, 24 Mar 2026 17:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.625537
- Title: Failure of contextual invariance in gender inference with large language models
- Title(参考訳): 大規模言語モデルを用いた性別推定における文脈不変性の失敗
- Authors: Sagar Kumar, Ariel Flint, Luca Maria Aiello, Andrea Baronchelli,
- Abstract要約: 最小で理論上は非形式的な言論コンテキストを導入し、モデル出力の大規模かつ体系的な変化を引き起こすことを発見した。
文化性ステレオタイプとの相関関係は、文脈が導入されたら、文脈が弱まるか、あるいは消える。
コンテキスト・バイ・Default分析により、モデル全体で19~52%のケースにおいて、この依存が持続することが明らかとなった。
- 参考スコア(独自算出の注目度): 0.143494686131174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard evaluation practices assume that large language model (LLM) outputs are stable under contextually equivalent formulations of a task. Here, we test this assumption in the setting of gender inference. Using a controlled pronoun selection task, we introduce minimal, theoretically uninformative discourse context and find that this induces large, systematic shifts in model outputs. Correlations with cultural gender stereotypes, present in decontextualized settings, weaken or disappear once context is introduced, while theoretically irrelevant features, such as the gender of a pronoun for an unrelated referent, become the most informative predictors of model behaviour. A Contextuality-by-Default analysis reveals that, in 19--52\% of cases across models, this dependence persists after accounting for all marginal effects of context on individual outputs and cannot be attributed to simple pronoun repetition. These findings show that LLM outputs violate contextual invariance even under near-identical syntactic formulations, with implications for bias benchmarking and deployment in high-stakes settings.
- Abstract(参考訳): 標準評価プラクティスは、タスクの文脈的に等価な定式化の下で、大きな言語モデル(LLM)出力が安定であると仮定する。
ここでは、この仮定を性別推定の設定で検証する。
制御された代名詞選択タスクを用いて、最小かつ理論的に非形式的な言論コンテキストを導入し、モデル出力の大規模かつ体系的な変化を引き起こすことを発見した。
文脈を弱めるか、あるいは失うかという、非文脈化された文脈に存在する文化的ジェンダーのステレオタイプとの相関が導入されたが、理論的には無関係なアクセントの代名詞の性別のような、無関係な特徴は、モデル行動の最も有意義な予測者となる。
テクスチュアリティ・バイ・デフォー (Contextuality-by-Default) 分析により、モデル全体の19~525%のケースにおいて、この依存は、個々の出力に対する文脈の余分な影響を考慮に入れた後に持続し、単純な代名詞反復によるものではないことが明らかになった。
これらの結果から, LLMの出力は, ほぼ同一の構文的定式化の下でも文脈的不変性に反し, 偏差ベンチマークや高感度環境での展開に影響を及ぼすことが示された。
関連論文リスト
- What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models [0.0]
機械翻訳(MT)や大規模言語モデル(LLM)などの(ブラックボックス)モデルによる決定を理解する手段として、解釈可能性を実装することができる。
しかし、この領域の研究は、これらのモデルにおける明らかな問題(性バイアス)に関連して制限されてきた。
本研究では、原文中の入力トークンの形で、対象言語における特定のジェンダーインフレクションの変換モデル選択に影響を与える(または引き起こす)文脈について検討する。
論文 参考訳(メタデータ) (2025-12-09T10:14:10Z) - Uncertainty Quantification for Evaluating Machine Translation Bias [8.210153370613941]
我々は、機械翻訳システムにおける性別バイアスを測定するために不確実性を用いる。
高い翻訳精度は不確実性を適切に示すことと相関せず, 脱バイアスが両症例に異なる影響を及ぼすことが判明した。
論文 参考訳(メタデータ) (2025-07-24T12:10:21Z) - Assumed Identities: Quantifying Gender Bias in Machine Translation of Gender-Ambiguous Occupational Terms [12.568906647547815]
GRAPEは、性別バイアスを評価するための確率ベースの指標である。
GAMBITは、性別のあいまいな職業用語を持つ英語のベンチマークデータセットである。
GRAPEを用いて、いくつかのMTシステムを評価し、ギリシャ語とフランス語の性別による翻訳が社会的ステレオタイプと一致しているか、あるいは相違するかを検討する。
論文 参考訳(メタデータ) (2025-03-06T12:16:14Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for
Fairer Instruction-Tuned Machine Translation [35.44115368160656]
機械翻訳モデルがジェンダーバイアスを示すか否かについて検討する。
We found that IFT model default to male-inflected translations, evengarding female occupational stereotypes。
実装が容易で効果的なバイアス緩和ソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-18T17:36:55Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。