論文の概要: State commitment learning: training language models to distinguish computation from memory
- arxiv url: http://arxiv.org/abs/2606.05201v1
- Date: Fri, 22 May 2026 17:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.606002
- Title: State commitment learning: training language models to distinguish computation from memory
- Title(参考訳): 状態コミットメント学習:メモリと計算を区別する言語モデルを訓練する
- Authors: Fei Ding, Yongkang Zhang, Runhao Liu, Yuhao Liao, Zijian Zeng, Huiming Yang,
- Abstract要約: 推論言語モデルは、計算に使用されるトークンと永続状態を構成するトークンを区別しない。
我々は,同じ接頭辞の下で,隠された思考を保持する経路と,それらを消去する経路の両方を評価できるCERL(Counterfactual Erasure RL)を提案する。
CERLは、隠れた思考に対する回答依存を精度を犠牲にすることなく大幅に低減し、常に正しさのみのRLと長文のSFTベースラインを上回ります。
- 参考スコア(独自算出の注目度): 2.4206666575244036
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reasoning language models do not distinguish tokens used for computation from tokens that constitute persistent state: once generated, all hidden thoughts remain in context and influence future predictions. As a result, downstream reasoning may depend on failed attempts, dead ends, and private scratch work that should not be safely relied on later. We recast this phenomenon as a new training objective, state commitment learning: training models to explicitly distinguish information that should be committed as persistent state from temporary computation that can be discarded. We define a counterfactual criterion, persistent-state sufficiency, which makes it trainable and measurable whether an answer remains usable after hidden thoughts are erased. We then propose Counterfactual Erasure RL (CERL), which evaluates, under the same prefix, both a path that keeps hidden thoughts and a path that erases them, and gives reward only when the erasure path remains correct. We also introduce the Erasure Dependence Protocol and show across mathematics, long-chain logic, scientific QA, and multi-turn tool-use evaluation that CERL substantially reduces answer dependence on hidden thoughts without sacrificing accuracy, consistently outperforming correctness-only RL and long-answer SFT baselines.
- Abstract(参考訳): 推論言語モデルは、計算に使用されるトークンと永続状態を構成するトークンを区別しない。
結果として、下流の推論は失敗した試み、デッドエンド、そして後で安全に頼るべきでないプライベートスクラッチ作業に依存するかもしれない。
我々は、この現象を、ステートコミットメント学習(State commitment learning)という新たなトレーニング目標として、永続的な状態としてコミットされるべき情報を、破棄可能な一時的な計算と明確に区別するためのトレーニングモデルとして再考する。
提案手法は,隠された思考が消去された後も有効な解答が残っているかどうかを訓練し,測定できるようにする。
次に、同じプレフィックスの下で、隠された思考を保ち、それらを消去する経路とを評価し、消去経路が正しい場合にのみ報酬を与えるCERL(Cerfactual Erasure RL)を提案する。
また、Eursure Dependence Protocolを導入し、数学、長鎖論理、科学的なQA、マルチターンツール利用の評価を行い、CERLは隠れた思考に対する回答依存を精度を犠牲にすることなく大幅に低減し、正しさのみのRLと長文のSFTベースラインを一貫して上回っていることを示す。
関連論文リスト
- Fast Unlearning at Scale via Margin Self-Correction [52.46927918952516]
言語モデルアンラーニングは、トレーニングモデルを更新して、選択したトレーニング例を見ていないかのように振る舞う。
MASCは、既存のベースラインの計算コストのごく一部で、競争力のある忘れがちなトレードオフを達成する。
論文 参考訳(メタデータ) (2026-06-01T21:49:54Z) - CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning [22.944748148277146]
CopTは、通常の思考と回答の順序を逆転する、改訂された推論パイプラインである。
CopTは、ドラフト回答を付与し、その後、独自のドラフト回答で条件付きで、後続のオンライン思考を起動する。
CopTはピーク精度を最大23%改善し、トークン使用量を最大57%削減する。
論文 参考訳(メタデータ) (2026-05-19T16:28:53Z) - Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning [58.725080160369494]
Distinguishable Deletion (mathrmD2$)は、特定のトークンではなく、潜在表現の応答分布を制限するパラダイムである。
本稿では,知識の存在と未学習コンテンツと保持コンテンツとの分離を定量化するエネルギー指標を提案する。
実験の結果、EUAは以前の方法よりも大幅に優れており、$mathrmD2$の優位性を示している。
論文 参考訳(メタデータ) (2026-05-16T03:15:35Z) - Unlearners Can Lie: Evaluating and Improving Honesty in LLM Unlearning [19.83087496179494]
大規模言語モデル(LLM)におけるアンラーニングは、全体的なユーティリティを保ちながら有害なトレーニングデータを削除することを目的としている。
既存の方法は、しばしば幻覚、異常なトークン配列の生成、不整合な振る舞い、安全と信頼の懸念を高める。
本稿では,保持された知識に対する実用性と誠実さの両立を含む,非学習的誠実さの形式的定義を提案する。
論文 参考訳(メタデータ) (2026-05-09T07:50:27Z) - The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models [15.12701445445687]
潜在CoTを用いた推論において,言語モデルが実際に重ね合わせを利用するかどうかを検討する。
スクラッチからトレーニングされたモデルだけが、重ね合わせを使うことの兆候を示します。
この結果は、連続連鎖推論において重畳がいつ、なぜ生じるのかを統一的に説明できる。
論文 参考訳(メタデータ) (2026-04-07T18:59:32Z) - Temporal Predictors of Outcome in Reasoning Language Models [0.0]
CoT(Chain-of-Thought)パラダイムは、推論のプロキシとしてステップバイステップの合理性の推論を使用する。
難しい問題に対して、予測精度の低下は、選択アーティファクトを浮き彫りにする。
全体として、我々の結果は、推論モデルでは、成功の自己評価はわずか数トークンで現れる傾向にあることを示唆している。
論文 参考訳(メタデータ) (2025-11-03T08:57:18Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。