論文の概要: Explaining News Bias Detection: A Comparative SHAP Analysis of Transformer Model Decision Mechanisms
- arxiv url: http://arxiv.org/abs/2512.23835v1
- Date: Mon, 29 Dec 2025 19:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.194869
- Title: Explaining News Bias Detection: A Comparative SHAP Analysis of Transformer Model Decision Mechanisms
- Title(参考訳): ニュースバイアス検出の解説:変圧器モデル決定機構の比較SHAP解析
- Authors: Himel Ghosh,
- Abstract要約: 本稿では,BABEデータセットに微調整されたバイアス検出モデルと,BABEデータセットに微調整されたドメイン適応型RoBERTaモデルとの2つのバイアス検出モデルの比較解釈可能性について述べる。
モデルアーキテクチャの違いが言語バイアスをどう操作するかを特徴付けるために、正しい予測と不正確な予測にまたがる単語レベルの属性を分析する。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated bias detection in news text is heavily used to support journalistic analysis and media accountability, yet little is known about how bias detection models arrive at their decisions or why they fail. In this work, we present a comparative interpretability study of two transformer-based bias detection models: a bias detector fine-tuned on the BABE dataset and a domain-adapted pre-trained RoBERTa model fine-tuned on the BABE dataset, using SHAP-based explanations. We analyze word-level attributions across correct and incorrect predictions to characterize how different model architectures operationalize linguistic bias. Our results show that although both models attend to similar categories of evaluative language, they differ substantially in how these signals are integrated into predictions. The bias detector model assigns stronger internal evidence to false positives than to true positives, indicating a misalignment between attribution strength and prediction correctness and contributing to systematic over-flagging of neutral journalistic content. In contrast, the domain-adaptive model exhibits attribution patterns that better align with prediction outcomes and produces 63\% fewer false positives. We further demonstrate that model errors arise from distinct linguistic mechanisms, with false positives driven by discourse-level ambiguity rather than explicit bias cues. These findings highlight the importance of interpretability-aware evaluation for bias detection systems and suggest that architectural and training choices critically affect both model reliability and deployment suitability in journalistic contexts.
- Abstract(参考訳): ニューステキストにおける自動バイアス検出は、ジャーナリストの分析とメディアのアカウンタビリティをサポートするために多用されているが、どのようにバイアス検出モデルが判断に到達したか、なぜ失敗したのかは分かっていない。
本研究では,BABEデータセットに微調整されたバイアス検出モデルと,BABEデータセットに微調整されたドメイン適応型RoBERTaモデルという,2つのトランスフォーマーに基づくバイアス検出モデルの解釈可能性について,SHAPに基づく説明を用いて比較検討する。
モデルアーキテクチャの違いが言語バイアスをどう操作するかを特徴付けるために、正しい予測と不正確な予測にまたがる単語レベルの属性を分析する。
以上の結果から,両モデルが類似した評価言語に分類されるが,これらの信号が予測にどのように統合されるかは大きく異なることが明らかとなった。
バイアス検出モデルは、真の正よりも強い内部証拠を偽陽性に割り当て、帰属力と予測の正しさの相違を示し、中立なジャーナリストコンテンツの体系的な過剰なフラグ付けに寄与する。
対照的に、ドメイン適応モデルは、予測結果とよりよく一致し、偽陽性を63%減少させる帰属パターンを示す。
さらに、モデル誤りは、明確な偏見ではなく、談話レベルの曖昧さによって引き起こされる偽陽性という、異なる言語メカニズムから生じることを実証する。
これらの知見は, バイアス検出システムにおける解釈可能性を考慮した評価の重要性を浮き彫りにし, 構造的および訓練的選択が, ジャーナリストの文脈におけるモデルの信頼性と展開適性の両方に重要な影響を与えることを示唆している。
関連論文リスト
- Mitigating Biases in Language Models via Bias Unlearning [27.565946855618368]
両経路のアンラーニング機構によって目的のデバイアスを実現する新しいモデルデバイアスフレームワークであるBiasUnlearnを提案する。
その結果、BiasUnlearnは言語モデルにおけるバイアスを軽減するために既存の手法よりも優れており、言語モデリング能力は維持されていることがわかった。
論文 参考訳(メタデータ) (2025-09-30T02:15:12Z) - To Bias or Not to Bias: Detecting bias in News with bias-detector [1.8024397171920885]
我々は、専門家注釈付きBABEデータセット上でRoBERTaベースのモデルを微調整することで、文レベルのバイアス分類を行う。
本稿では,ドメイン適応型DA-RoBERTaベースラインとの比較において,統計的に有意な性能向上を示す。
メディアバイアス検出のための,より堅牢で説明可能な,社会的に責任のあるNLPシステムの構築に寄与する。
論文 参考訳(メタデータ) (2025-05-19T11:54:39Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Fine-Grained Bias Detection in LLM: Enhancing detection mechanisms for nuanced biases [0.0]
本研究では,Large Language Models (LLMs) におけるニュアンスバイアス検出フレームワークを提案する。
このアプローチは、コンテキスト分析、注意機構による解釈可能性、および反ファクトデータ拡張を統合して、隠れたバイアスをキャプチャする。
その結果,従来の方法に比べて微妙な偏見の検出精度が向上した。
論文 参考訳(メタデータ) (2025-03-08T04:43:01Z) - CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Debiasing Stance Detection Models with Counterfactual Reasoning and
Adversarial Bias Learning [15.68462203989933]
スタンス検出モデルは、ショートカットとしてテキスト部分のデータセットバイアスに依存する傾向がある。
より正確にバイアスをモデル化するための逆バイアス学習モジュールを提案する。
論文 参考訳(メタデータ) (2022-12-20T16:20:56Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。