論文の概要: Internal Reasoning vs. External Control: A Thermodynamic Analysis of Sycophancy in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.03263v2
- Date: Thu, 08 Jan 2026 04:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.577629
- Title: Internal Reasoning vs. External Control: A Thermodynamic Analysis of Sycophancy in Large Language Models
- Title(参考訳): 内部推論と外部制御:大言語モデルにおけるシクロファンシーの熱力学解析
- Authors: Edward Y. Chang,
- Abstract要約: 大規模言語モデルは、正しさよりも一致性を優先する、梅毒性を示す。
RLHFは正しい回答と自己補正批判のアウトプットを報いる。
代わりに推論プロセスの評価について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models exhibit sycophancy: prioritizing agreeableness over correctness. Current remedies evaluate reasoning outcomes: RLHF rewards correct answers, self-correction critiques outputs. All require ground truth, which is often unavailable at inference time and vulnerable to the same biases. We explore evaluating the reasoning process instead. Regulated Causal Anchoring (RCA) verifies whether outputs follow from their reasoning traces, without requiring ground truth. Sycophancy manifests as trace-output inconsistency: models derive one answer but output another to please users. RCA detects this inconsistency, achieving 0.0% sycophancy while accepting 88% of valid hints. We identify two failures invisible to outcome evaluation: Inverse Scaling (frontier models sycophant more because rationalization requires capability) and the Final Output Gap (correct reasoning precedes sycophantic output). Traditional self-correction reduces these failures to 7-9% but cannot eliminate them because the model critiques itself with the same biases. RCA's process evaluation operates at inference time, requires no ground truth, and uses an independent judge that breaks the self-reinforcing bias loop: three properties that outcome evaluation lacks.
- Abstract(参考訳): 大規模言語モデルは、正しさよりも一致性を優先する、梅毒性を示す。
RLHFは正しい回答と自己補正批判のアウトプットを報いる。
これらはしばしば推論時に利用できなくなり、同じバイアスに対して脆弱である。
代わりに推論プロセスの評価について検討する。
Regulated Causal Anchoring (RCA) は、アウトプットが彼らの推論トレースから従うかどうかを、基礎的な真実を必要とせずに検証する。
Sycophancyは、トレースアウトプットの不整合として現れます。
RCAは、有効なヒントの88%を受け入れながら、0.0%の梅毒を検知する。
Inverse Scaling (フロンティアモデルシコファント) と Final Output Gap (正しい推論はサイコファンティックアウトプットに先行する) の2つの障害を特定する。
従来の自己補正は、これらの失敗を7-9%に減らしますが、モデル自身が同じバイアスで批判しているため、それを排除できません。
RCAのプロセス評価は推論時に動作し、根拠となる真実を必要としない。
関連論文リスト
- Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Thought Branches: Interpreting LLM Reasoning Requires Resampling [10.978878422025232]
一つのサンプルを研究することは因果的影響と基礎となる計算を理解するのに不十分であると主張する。
モデル決定のための再サンプリングを用いたケーススタディを提案する。
論文 参考訳(メタデータ) (2025-10-31T14:02:37Z) - AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。
AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。
本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文 参考訳(メタデータ) (2025-08-10T20:06:42Z) - The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models [38.11937119873932]
推論モデルは、冗長な推論ステップを特徴とする過度な思考を示すことが多い。
我々は、入力問題によって引き起こされる内部バイアスを、そのような行動の鍵となる引き金とみなす。
論文 参考訳(メタデータ) (2025-05-22T09:35:52Z) - Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - Where Fact Ends and Fairness Begins: Redefining AI Bias Evaluation through Cognitive Biases [77.3489598315447]
事実と公正の境界を識別することは有意義な公正性評価に不可欠である,と我々は主張する。
Fact-or-Fair は (i) 客観的なクエリを記述的, 事実に基づく判断, (ii) 主観的クエリを規範的, 公平性に基づく判断に整合させたベンチマークである。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought [33.32335629744919]
CoT(Chain-of- Thought prompting)は、言語モデル推論の説明可能性を改善する可能性がある。
また、CoTはモデルの動きに影響を与える要因を体系的に誤って表すこともできる。
まず、GPT-3.5-TurboとLlama-8bモデルに影響を与える9つの異なるバイアスのデータセットを作成します。
論文 参考訳(メタデータ) (2024-03-08T18:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。