論文の概要: Self-Blinding and Counterfactual Self-Simulation Mitigate Biases and Sycophancy in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.14553v1
- Date: Wed, 21 Jan 2026 00:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.191353
- Title: Self-Blinding and Counterfactual Self-Simulation Mitigate Biases and Sycophancy in Large Language Models
- Title(参考訳): 大規模言語モデルにおける自己ブラインディングと非実効的自己刺激型マイチゲートバイアーゼとシクロファンシー
- Authors: Brian Christian, Matan Mazor,
- Abstract要約: 大規模言語モデル (LLM) は, 対実的知識の下で行う決定を近似する能力において, 同様の制約を負っていることを示す。
人間と異なり、LLMは自己の反事実認識の地道的モデルにアクセスできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fair decisions require ignoring irrelevant, potentially biasing, information. To achieve this, decision-makers need to approximate what decision they would have made had they not known certain facts, such as the gender or race of a job candidate. This counterfactual self-simulation is notoriously hard for humans, leading to biased judgments even by well-meaning actors. Here we show that large language models (LLMs) suffer from similar limitations in their ability to approximate what decisions they would make under counterfactual knowledge in offsetting gender and race biases and overcoming sycophancy. We show that prompting models to ignore or pretend not to know biasing information fails to offset these biases and occasionally backfires. However, unlike humans, LLMs can be given access to a ground-truth model of their own counterfactual cognition -- their own API. We show that this access to the responses of a blinded replica enables fairer decisions, while providing greater transparency to distinguish implicit from intentionally biased behavior.
- Abstract(参考訳): 公正な判断は、無関係で偏見のある情報を無視する必要がある。
これを達成するために、意思決定者は、候補者の性別や人種など、特定の事実を知らない場合には、どのような決定をしたのかを近似する必要がある。
この反現実的な自己シミュレーションは、人間にとって悪名高いことで知られており、善意の俳優でさえ偏見を抱いている。
ここでは、大きな言語モデル(LLM)が、性別や人種の偏見を相殺し、梅毒を克服する反事実的知識の下で、どのような決定をするかを近似する能力に類似した制限を負っていることを示す。
モデルにバイアス情報を無視または知らないふりをするよう促すことは、バイアスをオフセットしたり、時にはバックファイアを発生させることに失敗することを示します。
しかし、人間とは異なり、LLMは自身のAPIである自己の反事実認識の基盤的真実モデルにアクセスできる。
盲目のレプリカの応答へのアクセスは、より公平な決定を可能にすると同時に、暗黙的な振る舞いと故意に偏った振る舞いを区別する透明性を提供する。
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Self-Adaptive Cognitive Debiasing for Large Language Models in Decision-Making [71.71796367760112]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
オープンウェイトとクローズドウェイトの両方を用いた金融・医療・法的意思決定タスクにおけるSACDの評価を行った。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Investigating the Capabilities and Limitations of Machine Learning for Identifying Bias in English Language Data with Information and Heritage Professionals [13.622709812029946]
支配的なMLアプローチはバイアスを取り除き、公正なモデルを作成することができると仮定している。
バイアスのある言語を識別するモデルを作成し、それを削除しようとするのではなく、データセットのバイアスに注意を向けます。
論文 参考訳(メタデータ) (2025-04-01T14:51:25Z) - Biased AI can Influence Political Decision-Making [64.9461133083473]
本稿では,大言語モデル(LLM)におけるパルチザンバイアスが政治的意見や意思決定に与える影響について検討する。
その結果,党派偏見モデルに曝露した参加者は,LLMの偏見と一致した意見を取り入れ,決定を下す可能性が有意に高いことがわかった。
論文 参考訳(メタデータ) (2024-10-08T22:56:00Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - Cognitive Bias in Decision-Making with LLMs [19.87475562475802]
大規模言語モデル(LLM)は、幅広い意思決定タスクをサポートするツールとして大きな可能性を秘めている。
LLMは保護されたグループに対する社会的バイアスを継承し、認知バイアスと機能的に類似している。
私たちの研究は、LLMの認知バイアスを発見し、評価し、緩和するために設計されたフレームワークであるBiasBusterを紹介します。
論文 参考訳(メタデータ) (2024-02-25T02:35:56Z) - Measuring Implicit Bias in Explicitly Unbiased Large Language Models [14.279977138893846]
大規模言語モデル(LLM)は明示的な社会的バイアステストに合格するが、それでも暗黙のバイアスを課す。
我々は、暗黙のバイアスを明らかにするプロンプトベースの方法であるLSM Implicit Biasと、意思決定タスクにおける微妙な差別を検出する戦略であるLSM Decision Biasの2つの新しいバイアス対策を導入する。
これらの指標を用いて,4つの社会カテゴリーにまたがる8つの価値整合モデルにおいて,社会における傾向を反映する広汎なステレオタイプバイアスが発見された。
論文 参考訳(メタデータ) (2024-02-06T15:59:23Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。