論文の概要: Self-Blinding and Counterfactual Self-Simulation Mitigate Biases and Sycophancy in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.14553v1
- Date: Wed, 21 Jan 2026 00:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.191353
- Title: Self-Blinding and Counterfactual Self-Simulation Mitigate Biases and Sycophancy in Large Language Models
- Title(参考訳): 大規模言語モデルにおける自己ブラインディングと非実効的自己刺激型マイチゲートバイアーゼとシクロファンシー
- Authors: Brian Christian, Matan Mazor,
- Abstract要約: 大規模言語モデル (LLM) は, 対実的知識の下で行う決定を近似する能力において, 同様の制約を負っていることを示す。
人間と異なり、LLMは自己の反事実認識の地道的モデルにアクセスできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fair decisions require ignoring irrelevant, potentially biasing, information. To achieve this, decision-makers need to approximate what decision they would have made had they not known certain facts, such as the gender or race of a job candidate. This counterfactual self-simulation is notoriously hard for humans, leading to biased judgments even by well-meaning actors. Here we show that large language models (LLMs) suffer from similar limitations in their ability to approximate what decisions they would make under counterfactual knowledge in offsetting gender and race biases and overcoming sycophancy. We show that prompting models to ignore or pretend not to know biasing information fails to offset these biases and occasionally backfires. However, unlike humans, LLMs can be given access to a ground-truth model of their own counterfactual cognition -- their own API. We show that this access to the responses of a blinded replica enables fairer decisions, while providing greater transparency to distinguish implicit from intentionally biased behavior.
- Abstract(参考訳): 公正な判断は、無関係で偏見のある情報を無視する必要がある。
これを達成するために、意思決定者は、候補者の性別や人種など、特定の事実を知らない場合には、どのような決定をしたのかを近似する必要がある。
この反現実的な自己シミュレーションは、人間にとって悪名高いことで知られており、善意の俳優でさえ偏見を抱いている。
ここでは、大きな言語モデル(LLM)が、性別や人種の偏見を相殺し、梅毒を克服する反事実的知識の下で、どのような決定をするかを近似する能力に類似した制限を負っていることを示す。
モデルにバイアス情報を無視または知らないふりをするよう促すことは、バイアスをオフセットしたり、時にはバックファイアを発生させることに失敗することを示します。
しかし、人間とは異なり、LLMは自身のAPIである自己の反事実認識の基盤的真実モデルにアクセスできる。
盲目のレプリカの応答へのアクセスは、より公平な決定を可能にすると同時に、暗黙的な振る舞いと故意に偏った振る舞いを区別する透明性を提供する。
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Self-Adaptive Cognitive Debiasing for Large Language Models in Decision-Making [71.71796367760112]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
オープンウェイトとクローズドウェイトの両方を用いた金融・医療・法的意思決定タスクにおけるSACDの評価を行った。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Investigating the Capabilities and Limitations of Machine Learning for Identifying Bias in English Language Data with Information and Heritage Professionals [13.622709812029946]
支配的なMLアプローチはバイアスを取り除き、公正なモデルを作成することができると仮定している。
バイアスのある言語を識別するモデルを作成し、それを削除しようとするのではなく、データセットのバイアスに注意を向けます。
論文 参考訳(メタデータ) (2025-04-01T14:51:25Z) - Where Fact Ends and Fairness Begins: Redefining AI Bias Evaluation through Cognitive Biases [77.3489598315447]
事実と公正の境界を識別することは有意義な公正性評価に不可欠である,と我々は主張する。
Fact-or-Fair は (i) 客観的なクエリを記述的, 事実に基づく判断, (ii) 主観的クエリを規範的, 公平性に基づく判断に整合させたベンチマークである。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - Biased AI can Influence Political Decision-Making [64.9461133083473]
本稿では,大言語モデル(LLM)におけるパルチザンバイアスが政治的意見や意思決定に与える影響について検討する。
その結果,党派偏見モデルに曝露した参加者は,LLMの偏見と一致した意見を取り入れ,決定を下す可能性が有意に高いことがわかった。
論文 参考訳(メタデータ) (2024-10-08T22:56:00Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Cognitive Bias in Decision-Making with LLMs [19.87475562475802]
大規模言語モデル(LLM)は、幅広い意思決定タスクをサポートするツールとして大きな可能性を秘めている。
LLMは保護されたグループに対する社会的バイアスを継承し、認知バイアスと機能的に類似している。
私たちの研究は、LLMの認知バイアスを発見し、評価し、緩和するために設計されたフレームワークであるBiasBusterを紹介します。
論文 参考訳(メタデータ) (2024-02-25T02:35:56Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Measuring Implicit Bias in Explicitly Unbiased Large Language Models [14.279977138893846]
大規模言語モデル(LLM)は明示的な社会的バイアステストに合格するが、それでも暗黙のバイアスを課す。
我々は、暗黙のバイアスを明らかにするプロンプトベースの方法であるLSM Implicit Biasと、意思決定タスクにおける微妙な差別を検出する戦略であるLSM Decision Biasの2つの新しいバイアス対策を導入する。
これらの指標を用いて,4つの社会カテゴリーにまたがる8つの価値整合モデルにおいて,社会における傾向を反映する広汎なステレオタイプバイアスが発見された。
論文 参考訳(メタデータ) (2024-02-06T15:59:23Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Uncovering the Source of Machine Bias [9.75150920742607]
性別による偏見、嗜好に基づく偏見、信念に基づく偏見は、人間の評価者の判断に現れる。
我々は,ジェンダーバイアスが融資の成果と企業と借主の福祉に与える影響を定量化する。
機械学習アルゴリズムは、好みに基づくバイアスと信念に基づくバイアスの両方を軽減することができる。
論文 参考訳(メタデータ) (2022-01-09T21:05:24Z) - Disembodied Machine Learning: On the Illusion of Objectivity in NLP [21.169778613387827]
バイアスに対処し緩和することはほぼ不可能である、と我々は主張する。
偏見制限の一般的な言説は、社会的限界化に対処する能力にある。
我々は、これに精通し、偏見の方法が一部のバイアスに対してのみ正しいことを受け入れることを推奨する。
論文 参考訳(メタデータ) (2021-01-28T12:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。