論文の概要: What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models
- arxiv url: http://arxiv.org/abs/2512.08440v1
- Date: Tue, 09 Dec 2025 10:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.910653
- Title: What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models
- Title(参考訳): 私のモデルとは何か? 対照的な説明は、翻訳モデルによるジェンダー選択をインフォームする
- Authors: Janiça Hackenbuchner, Arda Tezcan, Joke Daems,
- Abstract要約: 機械翻訳(MT)や大規模言語モデル(LLM)などの(ブラックボックス)モデルによる決定を理解する手段として、解釈可能性を実装することができる。
しかし、この領域の研究は、これらのモデルにおける明らかな問題(性バイアス)に関連して制限されてきた。
本研究では、原文中の入力トークンの形で、対象言語における特定のジェンダーインフレクションの変換モデル選択に影響を与える(または引き起こす)文脈について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interpretability can be implemented as a means to understand decisions taken by (black box) models, such as machine translation (MT) or large language models (LLMs). Yet, research in this area has been limited in relation to a manifested problem in these models: gender bias. With this research, we aim to move away from simply measuring bias to exploring its origins. Working with gender-ambiguous natural source data, this study examines which context, in the form of input tokens in the source sentence, influences (or triggers) the translation model choice of a certain gender inflection in the target language. To analyse this, we use contrastive explanations and compute saliency attribution. We first address the challenge of a lacking scoring threshold and specifically examine different attribution levels of source words on the model gender decisions in the translation. We compare salient source words with human perceptions of gender and demonstrate a noticeable overlap between human perceptions and model attribution. Additionally, we provide a linguistic analysis of salient words. Our work showcases the relevance of understanding model translation decisions in terms of gender, how this compares to human decisions and that this information should be leveraged to mitigate gender bias.
- Abstract(参考訳): 機械翻訳(MT)や大規模言語モデル(LLM)などの(ブラックボックス)モデルによる決定を理解する手段として、解釈可能性を実装することができる。
しかし、この領域の研究は、これらのモデルにおける明らかな問題(性バイアス)に関連して制限されてきた。
本研究は,単に偏見を測定することから,その起源を探究することを目的としている。
本研究は,ジェンダー・あいまいな自然言語データを用いて,入力トークンの入力形態が,対象言語における特定のジェンダー・インフレクションの選択にどのような影響(あるいは引き金)をもたらすかを検討する。
これを分析するために、コントラスト的な説明を使い、サリエンシの属性を計算する。
まず、評価しきい値の不足という課題に対処し、翻訳における性別決定のモデル上で、ソース単語の様々な属性レベルを具体的に調べる。
本研究は,人間の性知覚と有能なソース単語を比較し,人間の知覚とモデル属性の顕著な重なりを示す。
また,有能な単語の言語分析も行う。
我々の研究は、モデル翻訳の決定を性別の観点から理解し、それが人間の決定と比較し、この情報をジェンダーバイアスを軽減するために活用すべきであることを示す。
関連論文リスト
- Exploring Gender Bias in Large Language Models: An In-depth Dive into the German Language [21.87606488958834]
大規模言語モデル(LLM)における性別バイアス評価のためのドイツの5つのデータセットを提案する。
データセットは、ジェンダーバイアスというよく確立された概念に基づいており、複数の方法論を通してアクセス可能である。
8種類の多言語 LLM モデルで報告された本研究は,ドイツ語の性差にかかわる独特な課題を明らかにした。
論文 参考訳(メタデータ) (2025-07-22T13:09:41Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
大規模言語モデル(LLM)は、しばしば、トレーニングデータに埋め込まれた社会的バイアスを継承し、増幅する。
性バイアスとは、特定の役割や特性と特定の性別の関連性である。
ジェンダー表現バイアスは、性別の異なる個人への参照の不平等な頻度である。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Gender Lost In Translation: How Bridging The Gap Between Languages
Affects Gender Bias in Zero-Shot Multilingual Translation [12.376309678270275]
並列データが利用できない言語間のギャップを埋めることは、多言語NTTの性別バイアスに影響を与える。
本研究では, 言語に依存しない隠蔽表現が, ジェンダーの保存能力に及ぼす影響について検討した。
言語に依存しない表現は、ゼロショットモデルの男性バイアスを緩和し、ブリッジ言語におけるジェンダーインフレクションのレベルが増加し、話者関連性合意に対するより公平なジェンダー保存に関するゼロショット翻訳を超越することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:51:50Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution
and Machine Translation [10.542861450223128]
3つのドメインのコーパスにおいて,ステレオタイプおよび非ステレオタイプなジェンダーロール代入を示す文法パターンが発見された。
我々は、コーパスの品質を手動で検証し、様々なコア参照解像度と機械翻訳モデルにおける性別バイアスを評価する。
論文 参考訳(メタデータ) (2021-09-08T18:14:11Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。