論文の概要: Stable Reasoning, Unstable Responses: Mitigating LLM Deception via Stability Asymmetry
- arxiv url: http://arxiv.org/abs/2603.26846v1
- Date: Fri, 27 Mar 2026 09:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.664992
- Title: Stable Reasoning, Unstable Responses: Mitigating LLM Deception via Stability Asymmetry
- Title(参考訳): 安定推論, 不安定応答:安定非対称性によるLCMの誤認の軽減
- Authors: Guoxi Zhang, Jiawei Chen, Tianzhuo Yang, Lang Qin, Juntao Dai, Yaodong Yang, Jingwei Yi,
- Abstract要約: 決定的なリスクは本質的な詐欺であり、モデルがユーザを戦略的に誤解させ、自身の目的を達成させる。
CoT監視に基づく既存のアライメントアプローチは、明確な推論トレースを監督する。
本稿では,この分布非対称性を正規化する新たなアライメント目標である安定非対称性正規化(SAR)を提案する。
- 参考スコア(独自算出の注目度): 19.669339224904277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) expand in capability and application scope, their trustworthiness becomes critical. A vital risk is intrinsic deception, wherein models strategically mislead users to achieve their own objectives. Existing alignment approaches based on chain-of-thought (CoT) monitoring supervise explicit reasoning traces. However, under optimization pressure, models are incentivized to conceal deceptive reasoning, rendering semantic supervision fundamentally unreliable. Grounded in cognitive psychology, we hypothesize that a deceptive LLM maintains a stable internal belief in its CoT while its external response remains fragile under perturbation. We term this phenomenon stability asymmetry and quantify it by measuring the contrast between internal CoT stability and external response stability under perturbation. Building on this structural signature, we propose the Stability Asymmetry Regularization (SAR), a novel alignment objective that penalizes this distributional asymmetry during reinforcement learning. Unlike CoT monitoring, SAR targets the statistical structure of model outputs, rendering it robust to semantic concealment. Extensive experiments confirm that stability asymmetry reliably identifies deceptive behavior, and that SAR effectively suppresses intrinsic deception without degrading general model capability.
- Abstract(参考訳): 大きな言語モデル(LLM)が能力とアプリケーションの範囲を拡大するにつれ、その信頼性が重要になります。
決定的なリスクは本質的な詐欺であり、モデルがユーザを戦略的に誤解させ、自身の目的を達成させる。
CoT監視に基づく既存のアライメントアプローチは、明確な推論トレースを監督する。
しかし、最適化の圧力の下では、モデルが知覚的推論を隠蔽するためにインセンティブを与えられ、セマンティック・インフォメーションを基本的に信頼できないものにする。
認知心理学に根ざした仮説では、詐欺的LLMはCoTに対する安定した内的信念を維持しつつ、外的反応は摂動下でも脆弱である。
我々は、この現象の安定性を非対称性と呼び、内部のCoT安定性と摂動下での外部の応答安定性のコントラストを測定して定量化する。
この構造的シグネチャに基づいて、強化学習中にこの分布非対称性をペナル化する新しいアライメント目的である安定非対称性正規化(SAR)を提案する。
CoTモニタリングとは異なり、SARはモデル出力の統計構造をターゲットにしており、セマンティックな隠蔽に対して堅牢である。
過度な実験により、安定性の非対称性は偽造行為を確実に識別し、SARは一般モデル能力を低下させることなく本質的偽造を効果的に抑制することを確認した。
関連論文リスト
- Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation [11.761508894410182]
本稿では,マルチモーダル統合におけるモダリティの信頼度を明示的に推定・校正する段階適応型信頼度モデリングフレームワークを提案する。
SAGEは、ステージ依存の情報量に応じて音声と視覚の表現を動的に再バランスする信頼性に配慮した融合機構を導入している。
Aff-Wild2ベンチマークの実験では、SAGEは既存のマルチモーダル融合法と比較して、一致相関係数のスコアを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-12T02:45:41Z) - VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。
モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文 参考訳(メタデータ) (2026-02-13T03:40:52Z) - On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs [15.301640007799735]
単純な、制御されたテキストの摂動(キャプションや不正確なチェーン・オブ・シント(CoT)のトレース)は、堅牢性と信頼性が著しく低下していることを示している。
これらの脆弱性をよりよく理解するために、我々はRL微調整力学を分析し、精度と信頼のトレードオフを明らかにする。
論文 参考訳(メタデータ) (2026-02-13T01:12:00Z) - Beyond Confidence: The Rhythms of Reasoning in Generative Models [16.58205184223738]
大きな言語モデル(LLM)は、わずかに入力コンテキストの変化に対する感度に悩まされ、信頼性を損なうという印象的な能力を示す。
我々は,LLMが耐えうる最大内部状態を,その支配的な次トーケン予測が大幅に変化する前に定量化する新しい計量であるToken Constraint Bound(_mathrmTCB$)を紹介する。
実験の結果, 実効的なプロンプトエンジニアリングと相関し, 文脈内学習やテキスト生成において, 難易度に欠ける致命的な予測不安定性を明らかにすることができた。
論文 参考訳(メタデータ) (2026-02-11T12:58:23Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - Explainability-Guided Defense: Attribution-Aware Model Refinement Against Adversarial Data Attacks [6.573058520271728]
私たちは、トレーニング中に直接活用できる、解釈可能性と堅牢性との関連性を特定します。
本稿では,局所解釈可能なモデル非依存表現をアクティブな訓練信号に変換する属性誘導型改良フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-02T19:36:03Z) - Stable but Miscalibrated: A Kantian View on Overconfidence from Filters to Large Language Models [0.0]
我々は、カントの純粋推論批判をフィードバック安定性の理論として解釈し、推論を可能な経験の範囲内で保持する規制機関としての理由を考察する。
我々は、スペクトルマージン、条件付け、時間感度、革新増幅を組み合わせた複合不安定指数(H-Risk)を用いて、この直観を定式化する。
内部の脆さと誤校正・幻覚(癒合)の予備的相関を観察し,軽度の批判的プロンプトが小さめの検査で緩やかに校正を改善したり悪化させたりすることを発見した。
論文 参考訳(メタデータ) (2025-10-16T17:40:28Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。