論文の概要: Biases in the Blind Spot: Detecting What LLMs Fail to Mention
- arxiv url: http://arxiv.org/abs/2602.10117v1
- Date: Tue, 10 Feb 2026 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.777848
- Title: Biases in the Blind Spot: Detecting What LLMs Fail to Mention
- Title(参考訳): 盲点のバイオエイズ:LSMの精神障害を検知する
- Authors: Iván Arcuschin, David Chanin, Adrià Garriga-Alonso, Oana-Maria Camburu,
- Abstract要約: 大型言語モデル (LLM) は、しばしばチェーン・オブ・シント (CoT) 推論のトレースを提供するが、内部バイアスを隠蔽する可能性がある。
タスク固有の非言語バイアスを検出するために,完全に自動化されたブラックボックスパイプラインを導入する。
- 参考スコア(独自算出の注目度): 13.599496385950983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often provide chain-of-thought (CoT) reasoning traces that appear plausible, but may hide internal biases. We call these *unverbalized biases*. Monitoring models via their stated reasoning is therefore unreliable, and existing bias evaluations typically require predefined categories and hand-crafted datasets. In this work, we introduce a fully automated, black-box pipeline for detecting task-specific unverbalized biases. Given a task dataset, the pipeline uses LLM autoraters to generate candidate bias concepts. It then tests each concept on progressively larger input samples by generating positive and negative variations, and applies statistical techniques for multiple testing and early stopping. A concept is flagged as an unverbalized bias if it yields statistically significant performance differences while not being cited as justification in the model's CoTs. We evaluate our pipeline across six LLMs on three decision tasks (hiring, loan approval, and university admissions). Our technique automatically discovers previously unknown biases in these models (e.g., Spanish fluency, English proficiency, writing formality). In the same run, the pipeline also validates biases that were manually identified by prior work (gender, race, religion, ethnicity). More broadly, our proposed approach provides a practical, scalable path to automatic task-specific bias discovery.
- Abstract(参考訳): 大型言語モデル (LLM) は、しばしばチェーン・オブ・シント (CoT) 推論のトレースを提供するが、内部バイアスを隠蔽する可能性がある。
これらを非言語バイアス(unverbalized biases*)と呼びます。
既存のバイアス評価は、定義済みのカテゴリと手作りのデータセットを必要とするのが一般的である。
本研究では,タスク固有の非言語バイアスを検出するための,完全に自動化されたブラックボックスパイプラインを提案する。
タスクデータセットが与えられた場合、パイプラインはLSMオートレーダを使用して、候補バイアスの概念を生成する。
次に、正および負の変動を発生させることで、徐々に大きな入力サンプルで各概念をテストし、複数のテストと早期停止に統計技術を適用した。
モデルCoTの正当化として言及されていないが、統計的に有意な性能差が生じる場合、この概念は非言語バイアスとしてフラグ付けされる。
3つの意思決定課題(雇用、ローン承認、大学入学)で6つのLSMのパイプラインを評価した。
我々の手法は、これらのモデル(例えば、スペイン語の流派、英語の習熟度、文章の形式性)の既知バイアスを自動的に発見する。
同じ実行で、パイプラインは、以前の作業(性、人種、宗教、民族)によって手作業で特定されたバイアスも検証する。
より広範に、提案手法は、タスク固有の自動バイアス発見への実践的でスケーラブルな経路を提供する。
関連論文リスト
- Activation Steering for Bias Mitigation: An Interpretable Approach to Safer LLMs [0.5076419064097734]
大規模言語モデル(LLM)は、社会システムにますます統合されている。
バイアスを軽減する従来の方法は、しばしばデータフィルタリングやポストホック出力のモデレーションに依存している。
我々は、機械的解釈可能性の手法を用いてバイアスを特定し、積極的に軽減する完全なエンドツーエンドシステムを導入する。
論文 参考訳(メタデータ) (2025-08-12T15:34:18Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Does Reasoning Introduce Bias? A Study of Social Bias Evaluation and Mitigation in LLM Reasoning [21.921684911834447]
大規模言語モデル(LLM)における社会的偏見の最初の体系的評価について述べる。
我々は、DeepSeek-R1とChatGPTの命令調整およびCoT拡張版を含む、幅広いモデルの予測精度と推論バイアスを解析する。
本稿では, モデル予測が漸進的推論ステップ間でどのように変化するかを追跡することにより, バイアスを検出する軽量な緩和法であるバイアスプロキシ(ADBP)を提案する。
論文 参考訳(メタデータ) (2025-02-21T10:16:07Z) - Say My Name: a Model's Bias Discovery Framework [22.83182995962228]
Say My Name'(SaMyNa)は、ディープモデル内のバイアスを意味的に識別する最初のツールです。
既存の方法とは異なり、私たちのアプローチはモデルによって学習されたバイアスに焦点を当てています。
本手法は,タスク関連情報をアンタングル化し,偏見を解析するためのツールとして提案する。
論文 参考訳(メタデータ) (2024-08-18T18:50:59Z) - Evaluating Nuanced Bias in Large Language Model Free Response Answers [8.775925011558995]
複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T19:58:13Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。