論文の概要: Explanation Bias is a Product: Revealing the Hidden Lexical and Position Preferences in Post-Hoc Feature Attribution
- arxiv url: http://arxiv.org/abs/2512.11108v1
- Date: Thu, 11 Dec 2025 20:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.567952
- Title: Explanation Bias is a Product: Revealing the Hidden Lexical and Position Preferences in Post-Hoc Feature Attribution
- Title(参考訳): Explanation Bias is a Product: Revealing the Hidden Lexical and Position Preferences in Post-Hoc Feature Attribution
- Authors: Jonathan Kamp, Roos Bakker, Dominique Blok,
- Abstract要約: 同じ入力に関する説明は、異なる方法の根底にあるバイアスによって大きく異なる可能性がある。
3つの評価指標のモデルおよびメソッドに依存しないフレームワークによってバイアスを構造化する。
異常な説明を生み出す手法が、自分自身に偏見を抱く可能性が高いという兆候が見つかりました。
- 参考スコア(独自算出の注目度): 0.3568466510804538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Good quality explanations strengthen the understanding of language models and data. Feature attribution methods, such as Integrated Gradient, are a type of post-hoc explainer that can provide token-level insights. However, explanations on the same input may vary greatly due to underlying biases of different methods. Users may be aware of this issue and mistrust their utility, while unaware users may trust them inadequately. In this work, we delve beyond the superficial inconsistencies between attribution methods, structuring their biases through a model- and method-agnostic framework of three evaluation metrics. We systematically assess both the lexical and position bias (what and where in the input) for two transformers; first, in a controlled, pseudo-random classification task on artificial data; then, in a semi-controlled causal relation detection task on natural data. We find that lexical and position biases are structurally unbalanced in our model comparison, with models that score high on one type score low on the other. We also find signs that methods producing anomalous explanations are more likely to be biased themselves.
- Abstract(参考訳): 良質な説明は言語モデルとデータの理解を強化する。
統合グラディエント(Integrated Gradient)のような機能属性メソッドは、トークンレベルの洞察を提供するためのポストホックな説明器の一種である。
しかし、同じ入力に関する説明は、異なる方法の根底にあるバイアスのために大きく異なる可能性がある。
ユーザはこの問題に気付き、ユーティリティを不信視するかもしれませんが、ユーザはそれを不信視するかもしれません。
本研究では,3つの評価指標のモデルおよび手法に依存しないフレームワークを用いて,帰属法間の表面的矛盾を克服し,バイアスを構造化する。
まず、人工データにおける擬似ランダム分類タスクにおいて、次に、自然データにおける半制御因果関係検出タスクにおいて、2つのトランスフォーマーに対する語彙バイアスと位置バイアス(入力の何とどこにあるか)を体系的に評価する。
語彙と位置のバイアスはモデル比較において構造的に不均衡であり、一方の型スコアにおいて高いスコアを持つモデルは他方で低い値を示す。
また、異常な説明を生み出す手法が、自分自身に偏見を抱く傾向にあることを示す兆候も見いだす。
関連論文リスト
- Common-Sense Bias Modeling for Classification Tasks [15.683471433842492]
テキスト記述に基づく画像データセットの包括的バイアスを抽出する新しい枠組みを提案する。
提案手法は,複数の画像ベンチマークデータセットにおける新しいモデルバイアスを明らかにする。
発見されたバイアスは、機能の非相関化のために、単純なデータ再重み付けによって緩和することができる。
論文 参考訳(メタデータ) (2024-01-24T03:56:07Z) - NBIAS: A Natural Language Processing Framework for Bias Identification
in Text [9.486702261615166]
テキストデータのバイアスは、データが使用されると歪んだ解釈や結果につながる可能性がある。
偏りのあるデータに基づいて訓練されたアルゴリズムは、あるグループに不公平に影響を及ぼす決定を下すかもしれない。
我々は,データ,コーパス構築,モデル開発,評価レイヤの4つの主要レイヤからなる包括的フレームワーク NBIAS を開発した。
論文 参考訳(メタデータ) (2023-08-03T10:48:30Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Interpretable Data-Based Explanations for Fairness Debugging [7.266116143672294]
Gopherは、バイアスや予期せぬモデルの振る舞いに関するコンパクトで解釈可能な、因果的な説明を生成するシステムである。
我々は,学習データに介入する程度を,サブセットの削除や更新によって定量化する因果責任の概念を導入し,バイアスを解消する。
この概念に基づいて、モデルバイアスを説明するトップkパターンを生成するための効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2021-12-17T20:10:00Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Counterfactual Evaluation for Explainable AI [21.055319253405603]
そこで本稿では, 文献的推論の観点から, 説明の忠実さを評価する新しい手法を提案する。
離散シナリオと連続シナリオの両方において適切な反事実を見つけるために2つのアルゴリズムを導入し、取得した反事実を用いて忠実度を測定する。
論文 参考訳(メタデータ) (2021-09-05T01:38:49Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Investigating Bias in Image Classification using Model Explanations [0.0]
モデル説明が識別特徴を強調することで画像分類のバイアスを効率的に検出できるかどうかを評価する。
バイアス検出の重要な特徴を定式化し,モデルのバイアスの程度が変化するにつれて説明がどのように変化するかを観察した。
論文 参考訳(メタデータ) (2020-12-10T05:27:49Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。