論文の概要: Aligning to Illusions: Choice Blindness in Human and AI Feedback
- arxiv url: http://arxiv.org/abs/2603.08412v1
- Date: Mon, 09 Mar 2026 14:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.191277
- Title: Aligning to Illusions: Choice Blindness in Human and AI Feedback
- Title(参考訳): イリュージョンに順応する:人間とAIのフィードバックにおける盲点の選択
- Authors: Wenbin Wu,
- Abstract要約: 人間の選択失明研究では、過度にスワップされた好みの91%が発見されず、選択失明は不慣れなテキストの第三者による評価比較にまで及ぶ。
検出は、真の自己監視ではなく、浅いテキストマッチングに依存している。
2つのアーキテクチャにわたる線量応答実験では、報奨信号が半減する前にラベルの6分の1から3分の1を破損させなければならない。
Best-of-N評価では、これは下流の政策劣化につながると確認されている。
- 参考スコア(独自算出の注目度): 2.912535004465788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) assumes annotator preferences reflect stable internal states. We challenge this through three experiments spanning the preference pipeline. In a human choice blindness study, 91% of surreptitiously swapped preferences go undetected, extending choice blindness to third-person evaluative comparison of unfamiliar text. Testing fifteen LLM judges as potential replacements, we find detection relies on shallow text matching rather than genuine self-monitoring: removing prior reasoning from context causes blindness to surge from near-zero to over 50%, while explicit social pressure induces near-universal compliance. In a dose-response experiment across two architectures from 86M to 2B parameters, one-sixth to one-third of labels must be corrupted before the reward signal halves, yet standard pairwise accuracy remains virtually unchanged. A Best-of-N evaluation confirms this translates to downstream policy degradation: at 50% corruption, reward-guided selection produces no improvement over random sampling, while the proxy model reports monotonically increasing scores. Together, these results reveal a preference construction problem: the signal entering RLHF is shaped by elicitation context in ways that neither human metacognition, LLM self-monitoring, nor standard evaluation metrics can detect.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、アノテータの好みが安定した内部状態を反映していると仮定する。
好みのパイプラインにまたがる3つの実験を通じて、この問題に挑戦します。
人間の選択失明研究では、過度にスワップされた好みの91%が発見されず、選択失明は不慣れなテキストの第三者による評価比較にまで及ぶ。
文脈から事前の推論を除去することは、視覚障害をほぼゼロから50%以上に増加させ、明示的な社会的圧力は、ほぼ普遍的なコンプライアンスをもたらす。
86Mから2Bパラメータの2つのアーキテクチャにわたる線量応答実験では、報奨信号が半減する前にラベルの6分の1から3のラベルを破損させなければならない。
50%の汚職で報酬誘導選択はランダムサンプリングよりも改善せず、プロキシモデルは単調にスコアが増加することを報告している。
これらの結果から、RLHFに入る信号は、人間のメタ認知、LLM自己監視、標準評価指標が検出できない方法で、引き起こしコンテキストによって形成される。
関連論文リスト
- SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - ORCA: Open-ended Response Correctness Assessment for Audio Question Answering [41.72231074041232]
本研究では,予測精度と不確実性の両方を予測するために,ベータ分布を用いた人的判断の変動をモデル化するフレームワークORCAを提案する。
我々は15のLALMから11,721のアノテーションを収集し,0.82(クリッペンドルフのα)のアノテータ間契約を達成した。
論文 参考訳(メタデータ) (2025-11-28T14:41:48Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Evaluating Perceptual Distance Models by Fitting Binomial Distributions to Two-Alternative Forced Choice Data [43.714290271351466]
本稿では,二項決定モデルに最大推定値を適用し,より頑健な距離モデル評価手法を提案する。
提案手法は2つの2AFC PFデータセット上での様々な視覚距離モデルの評価から, 簡便さ, 可視性, 柔軟性, 計算効率が優れていることを示す。
論文 参考訳(メタデータ) (2024-03-15T15:21:04Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。