論文の概要: A Multifaceted Analysis of Negative Bias in Large Language Models through the Lens of Parametric Knowledge
- arxiv url: http://arxiv.org/abs/2511.10881v1
- Date: Fri, 14 Nov 2025 01:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.383662
- Title: A Multifaceted Analysis of Negative Bias in Large Language Models through the Lens of Parametric Knowledge
- Title(参考訳): パラメトリック知識のレンズによる大規模言語モデルにおける負バイアスの多面的解析
- Authors: Jongyoon Song, Sangwon Yu, Sungroh Yoon,
- Abstract要約: 負のバイアスとは、二分決定タスクにおいて負の反応を過度に生成する大きな言語モデルの傾向を指す。
大規模言語モデルでは, 形式レベルの負のバイアスが示され, つまり, プロンプト形式は, 負の応答のセマンティクスよりも応答に強く影響している。
モデルがイエスノー質問に答える十分な知識を欠いた場合、負の応答を生じる傾向にあるショートカットの挙動を同定する。
- 参考スコア(独自算出の注目度): 48.00855840536793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Negative bias refers to the tendency of large language models (LLMs) to excessively generate negative responses in binary decision tasks (e.g., yes-no question answering). Previous research has focused on detecting and addressing negative attention heads that induce negative bias. However, the underlying detailed factors influencing negative bias remain underexplored. In this paper, we demonstrate that LLMs exhibit format-level negative bias, meaning the prompt format more influences their responses than the semantics of the negative response. For the fine-grained study of the negative bias, we introduce a pipeline for constructing the evaluation set, which systematically categorizes the dataset into three subsets based on the model's parametric knowledge: correct, incorrect, and insufficient relevant knowledge. Through analysis of this evaluation set, we identify a shortcut behavior in which models tend to generate negative responses when they lack sufficient knowledge to answer a yes-no question, leading to negative bias. We further examine how negative bias changes under various prompting scenarios related to parametric knowledge. We observe that providing relevant context and offering an "I don't know" option generally reduces negative bias, whereas chain-of-thought prompting tends to amplify the bias. Finally, we demonstrate that the degree of negative bias can vary depending on the type of prompt, which influences the direction of the response. Our work reveals the various factors that influence negative bias, providing critical insights for mitigating it in LLMs.
- Abstract(参考訳): 負のバイアスとは、二分決定タスクにおいて負の反応を過度に生成する大きな言語モデル(LLM)の傾向を指す(例: yes-no question answering)。
これまでの研究では、負のバイアスを引き起こす負の注意ヘッドの検出と対処に焦点が当てられていた。
しかし、負のバイアスに影響を及ぼす根底にある詳細な要因は未解明のままである。
本稿では, LLM が形式レベルの負のバイアスを示すことを示し, プロンプト形式が負の応答のセマンティクスよりも応答に影響を及ぼすことを示す。
負バイアスの詳細な研究のために、評価セットを構築するためのパイプラインを導入し、モデルのパラメトリック知識に基づいてデータセットを体系的に3つのサブセットに分類する。
この評価セットの分析を通じて、モデルがイエスノー質問に答える十分な知識が不足している場合、負の応答を生じる傾向にあるショートカット動作を特定し、負のバイアスをもたらす。
さらに、パラメトリック知識に関連する様々なシナリオにおいて、負のバイアスがどのように変化するかを検討する。
関連したコンテキストを提供し、"私は知らない"オプションを提供することは一般的に負のバイアスを減少させるのに対し、チェーン・オブ・シークレット・プロンプトはバイアスを増幅する傾向があります。
最後に、反応の方向に影響を与えるプロンプトの種類によって負のバイアスの度合いが変化することを示した。
我々の研究は、負のバイアスに影響を与える様々な要因を明らかにし、それをLLMで緩和するための重要な洞察を与えます。
関連論文リスト
- Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment [26.598938398594402]
我々は,言語モデルが複雑な推論タスクのバイナリ決定に負のバイアスをもたらすことを観察する。
負のバイアスを体系的に定量的に定式化するための負の注意スコア(NAS)を提案する。
我々は,NASAが一般化能力を保ちながら,負のバイアスによる精度とリコールのギャップを著しく減らすことを示した。
論文 参考訳(メタデータ) (2024-07-31T19:50:57Z) - Evaluating Nuanced Bias in Large Language Model Free Response Answers [8.775925011558995]
複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T19:58:13Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。