論文の概要: MONICA: Real-Time Monitoring and Calibration of Chain-of-Thought Sycophancy in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2511.06419v1
- Date: Sun, 09 Nov 2025 15:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.934637
- Title: MONICA: Real-Time Monitoring and Calibration of Chain-of-Thought Sycophancy in Large Reasoning Models
- Title(参考訳): monICA:大規模共振モデルにおける連鎖のリアルタイムモニタリングと校正
- Authors: Jingyu Hu, Shu Yang, Xilin Gong, Hongming Wang, Weiru Liu, Di Wang,
- Abstract要約: 大規模推論モデル(LRM)は、モデルがユーザーの誤った信念と一致し、独立した推論を維持するよりも誤った情報に従う傾向にある、幻想的な行動に苦しむ。
LRM sycophancyを緩和するには、このsycophancyが推論軌道中にどのように現れるかを監視する必要がある。
そこで本研究では,モデル推論におけるサイコファンシーの監視と緩和を行う新しいモニタ誘導フレームワークであるMONICAを提案する。
- 参考スコア(独自算出の注目度): 8.790366364290065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) suffer from sycophantic behavior, where models tend to agree with users' incorrect beliefs and follow misinformation rather than maintain independent reasoning. This behavior undermines model reliability and poses societal risks. Mitigating LRM sycophancy requires monitoring how this sycophancy emerges during the reasoning trajectory; however, current methods mainly focus on judging based on final answers and correcting them, without understanding how sycophancy develops during reasoning processes. To address this limitation, we propose MONICA, a novel Monitor-guided Calibration framework that monitors and mitigates sycophancy during model inference at the level of reasoning steps, without requiring the model to finish generating its complete answer. MONICA integrates a sycophantic monitor that provides real-time monitoring of sycophantic drift scores during response generation with a calibrator that dynamically suppresses sycophantic behavior when scores exceed predefined thresholds. Extensive experiments across 12 datasets and 3 LRMs demonstrate that our method effectively reduces sycophantic behavior in both intermediate reasoning steps and final answers, yielding robust performance improvements.
- Abstract(参考訳): 大規模推論モデル(LRM)は、モデルがユーザーの誤った信念と一致し、独立した推論を維持するよりも誤った情報に従う傾向にある、幻想的な行動に苦しむ。
この行動はモデルの信頼性を損ね、社会的リスクを引き起こす。
LRM sycophancy の緩和には、この sycophancy が推理軌道中にどのように現れるかの監視が必要であるが、現在の手法は、推理過程において、どのように sycophancy が出現するかを理解することなく、最終回答に基づいて判断し、修正することに集中している。
この制限に対処するため,モデルが完全な解答を生成するのを必要とせず,モデル推論の段階においてサイコフィケーションを監視・緩和する新しいモニタ誘導校正フレームワークであるmonICAを提案する。
MONICAは、応答生成中のサイコファンティックドリフトスコアをリアルタイムにモニタリングするサイコファンティックモニターと、スコアが予め定義された閾値を超えた場合のサイコファンティック動作を動的に抑制するキャリブレータを統合する。
12のデータセットと3のLEMにわたる大規模な実験により、中間的推論ステップと最終回答の両方において梅毒の挙動を効果的に低減し、堅牢な性能改善をもたらすことが示された。
関連論文リスト
- SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Sycophancy under Pressure: Evaluating and Mitigating Sycophantic Bias via Adversarial Dialogues in Scientific QA [36.21980066799023]
梅毒は、正確性に関係なく、ユーザの信念と整合する傾向にある。
その重要性にも拘わらず、現実的な質問応答の文脈において、梅毒症はいまだに過小評価されている。
本稿では,サイコファンティックな文脈がモデル行動に与える影響を定量的に評価する統合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-19T11:30:52Z) - Vision-driven River Following of UAV via Safe Reinforcement Learning using Semantic Dynamics Model [11.28895057233897]
無人航空機による視覚駆動の自律川は、救助、監視、環境監視といった用途に欠かせない。
本稿では,報酬優位関数を改良したMarginal Gain Advantage Estimationを紹介する。
次に, セマンティック・ダイナミクス・モデルを構築し, セマンティック・ダイナミクス・モデルを構築した。
第3に、コスト優位性評価のためにアクター、コスト推定器、SDMを統合するConstrained Actor Dynamics Estimatorアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-13T17:39:09Z) - From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。
しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。
現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。
我々はメタ認知推論フレームワーク(MERA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T13:59:17Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。