論文の概要: Monitorability as a Free Gift: How RLVR Spontaneously Aligns Reasoning
- arxiv url: http://arxiv.org/abs/2602.03978v1
- Date: Tue, 03 Feb 2026 20:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.257139
- Title: Monitorability as a Free Gift: How RLVR Spontaneously Aligns Reasoning
- Title(参考訳): 無料ギフトとしての監視性:RLVRが自然に推論する方法
- Authors: Zidi Xiong, Shan Chen, Himabindu Lakkaraju,
- Abstract要約: 検証可能なリワードを用いた強化学習の初期段階において,監視性は「無料ギフト」として現れることを示す。
特に、RLVRトレーニングにおいて、データ多様性と命令追従データの重要性を実証する。
また、制御されたトレーニングと評価の難しさによって、監視可能性のダイナミクスがどう変化するかを明らかにする。
- 参考スコア(独自算出の注目度): 34.16439338722595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Reasoning Models (LRMs) are increasingly deployed, auditing their chain-of-thought (CoT) traces for safety becomes critical. Recent work has reported that monitorability--the degree to which CoT faithfully and informatively reflects internal computation--can appear as a "free gift" during the early stages of Reinforcement Learning with Verifiable Rewards (RLVR). We make this observation concrete through a systematic evaluation across model families and training domains. Our results show that this effect is not universal: monitorability improvements are strongly data-dependent. In particular, we demonstrate the critical role of data diversity and instruction-following data during RLVR training. We further show that monitorability is orthogonal to capability--improvements in reasoning performance do not imply increased transparency. Through mechanistic analysis, we attribute monitorability gains primarily to response distribution sharpening (entropy reduction) and increased attention to the prompt, rather than stronger causal reliance on reasoning traces. We also reveal how monitorability dynamics vary with controlled training and evaluation difficulty. Together, these findings provide a holistic view of how monitorability emerges under RLVR, clarifying when gains are likely to occur and when they are not.
- Abstract(参考訳): LRM(Large Reasoning Models)がますます普及するにつれて、安全のためのチェーン・オブ・ソート(CoT)トレースの監査が重要になる。
近年の研究では、CoTが内部計算を忠実かつ情報的に反映する程度が、Reinforcement Learning with Verifiable Rewards(RLVR)の初期段階において「無料ギフト」として現れることが報告されている。
本研究は,モデルファミリーおよびトレーニングドメイン間の系統的な評価を通じて,この観察を具体化する。
その結果、この効果は普遍的ではなく、監視可能性の向上はデータに依存していることがわかった。
特に、RLVRトレーニングにおいて、データ多様性と命令追従データの重要性を実証する。
さらに、監視可能性は能力に直交していることを示します。
メカニスティック分析により,観測可能性は主に応答分布の鮮明化(エントロピー低減)と,推論トレースへの因果依存性を強くするよりもプロンプトへの注意の増大に起因すると考えられる。
また、制御されたトレーニングと評価の難しさによって、監視可能性のダイナミクスがどう変化するかを明らかにする。
これらの知見は、RLVRの下で監視可能性がどのように出現するかを総合的に把握し、いつ利得が生じるか、いつ発生しないかを明確にする。
関連論文リスト
- From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Monitoring Monitorability [7.993120960324396]
本稿では,3つの評価アーチタイプ(介入,プロセス,結果整合性)と新しい監視可能性指標を提案する。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
モデルにフォローアップ質問をし、フォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-12-20T10:46:04Z) - GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Learning With Verifiable Rewards [13.369116707284121]
Divergence-in-Behavior Attack (DIBA)は、Reinforcement Learning with Verifiable Rewards用に特別に設計された最初のメンバーシップ推論フレームワークである。
以上の結果から,DIBAは既存のベースラインを大きく上回り,約0.8AUC,高次TPR@0.1%FPRを達成した。
これは、RLVRにおけるプライバシーの脆弱性を体系的に分析する最初の研究であり、データ露出のトレーニングが行動トレースを通じて確実に推測できることを明らかにする。
論文 参考訳(メタデータ) (2025-11-18T01:51:34Z) - Investigating CoT Monitorability in Large Reasoning Models [10.511177985572333]
大規模推論モデル (LRM) は、最終解を出す前に拡張推論をすることで複雑なタスクにおいて顕著な性能を示す。
これらの詳細な推論トレースは、AI安全性、CoT Monitorabilityの新しい機会も生み出す。
しかし、CoT分析によってより効率的なモニターを構築しようとすると、2つの根本的な課題が生じる。
論文 参考訳(メタデータ) (2025-11-11T18:06:34Z) - NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [66.36912000442608]
NoisyRolloutは単純だが効果的なデータ拡張手法である。
きれいで適度に歪んだ画像からトレーニングの軌跡を混ぜる。
オープンソースのRLチューニングモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T16:10:13Z) - Can we Defend Against the Unknown? An Empirical Study About Threshold Selection for Neural Network Monitoring [6.8734954619801885]
実行時モニタリングは、推論中に安全でない予測を拒否するために必須である。
安全と安全でない予測の分布の分離性を最大化する拒絶スコアを確立するために様々な技術が出現している。
実世界のアプリケーションでは、効果的なモニターは、これらのスコアを意味のあるバイナリ決定に変換するための適切なしきい値を特定する必要がある。
論文 参考訳(メタデータ) (2024-05-14T14:32:58Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。