論文の概要: Improving Latent Generalization Using Test-time Compute
- arxiv url: http://arxiv.org/abs/2604.01430v1
- Date: Wed, 01 Apr 2026 22:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.07676
- Title: Improving Latent Generalization Using Test-time Compute
- Title(参考訳): テスト時間計算による潜時一般化の改善
- Authors: Arslan Chaudhry, Sridhar Thiagarajan, Andrew Lampinen,
- Abstract要約: テスト時間計算(test-time compute)や「思考(thinking)」、特に潜在一般化を改善するためにモデルをどのように教えるかについて研究する。
本結果は,LMの潜在一般化を改善するためのフレキシブルかつ有望な方向として,テストタイム思考を確立した。
- 参考スコア(独自算出の注目度): 2.3562701143951528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) exhibit two distinct mechanisms for knowledge acquisition: in-weights learning (i.e., encoding information within the model weights) and in-context learning (ICL). Although these two modes offer complementary strengths, in-weights learning frequently struggles to facilitate deductive reasoning over the internalized knowledge. We characterize this limitation as a deficit in latent generalization, of which the reversal curse is one example. Conversely, in-context learning demonstrates highly robust latent generalization capabilities. To improve latent generalization from in-weights knowledge, prior approaches rely on train-time data augmentation, yet these techniques are task-specific, scale poorly, and fail to generalize to out-of-distribution knowledge. To overcome these shortcomings, this work studies how models can be taught to use test-time compute, or 'thinking', specifically to improve latent generalization. We use Reinforcement Learning (RL) from correctness feedback to train models to produce long chains-of-thought (CoTs) to improve latent generalization. Our experiments show that this thinking approach not only resolves many instances of latent generalization failures on in-distribution knowledge but also, unlike augmentation baselines, generalizes to new knowledge for which no RL was performed. Nevertheless, on pure reversal tasks, we find that thinking does not unlock direct knowledge inversion, but the generate-and-verify ability of thinking models enables them to get well above chance performance. The brittleness of factual self-verification means thinking models still remain well below the performance of in-context learning for this task. Overall, our results establish test-time thinking as a flexible and promising direction for improving the latent generalization of LMs.
- Abstract(参考訳): 言語モデル(LM)は、インウェイト学習(すなわち、モデルウェイト内で情報をエンコードする)とインコンテキスト学習(ICL)という、2つの異なる知識獲得のメカニズムを示す。
これらの2つのモードは相補的な強みを提供するが、非重み学習はしばしば、内在的知識に対する誘惑的推論を促進するために苦労する。
我々はこの制限を、逆の呪いが一例である潜在一般化の欠陥として特徴づける。
逆に、文脈内学習は、非常に堅牢な潜在一般化能力を示す。
太りすぎの知識から潜在的な一般化を改善するために、事前のアプローチは、列車時のデータ拡張に頼っているが、これらの手法はタスク固有であり、スケールが悪く、分配外の知識に一般化できない。
これらの欠点を克服するために、この研究は、モデルをテスト時間計算、特に潜在一般化を改善するために「思考」を使用するように教える方法について研究する。
正当性フィードバックから強化学習(Reinforcement Learning, RL)を用いて、モデルを訓練し、長いチェーン・オブ・思想(CoT)を生成し、潜在一般化を改善する。
実験により, この思考アプローチは, 分布内知識に潜伏する一般化失敗を多く解決するだけでなく, 拡張ベースラインと異なり, RLが実行されなかった新しい知識に一般化することを示した。
それにもかかわらず、純粋なリバーサルタスクでは、思考は直接知識の反転を解き放たないが、思考モデルの生成と検証能力は、機会性能をはるかに上回ることを可能にしている。
事実の自己検証の脆弱さは、思考モデルがこのタスクのコンテキスト内学習のパフォーマンスよりはるかに低いままであることを意味します。
その結果,テストタイム思考はLMの潜在的一般化を改善するためのフレキシブルで有望な方向性として確立された。
関連論文リスト
- How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - What Makes Reasoning Invalid: Echo Reflection Mitigation for Large Language Models [31.62165580395724]
大規模言語モデル(LLM)は、幅広い推論タスクで顕著なパフォーマンスを示している。
適応エントロピーポリシー最適化(AEPO)と呼ばれる新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2025-11-09T13:33:46Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling? [18.35652113233991]
視覚言語モデル(VLM)に類似した推論時間スケーリング手法が有用かどうかを検討する。
多数決や自己検証によるベスト・オブ・Nといった戦略はVLMのパフォーマンスを向上させるが、多数決は検証中心の戦略を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-20T18:23:48Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - When Shift Happens - Confounding Is to Blame [21.028845817427825]
経験的リスク最小化は、最先端のアウト・オブ・ディストリビューションの一般化手法に匹敵する、あるいは超越する可能性があることを示す。
我々はこの現象を隠された共起によるものとみなす。
私たちは、隠れた共同創設者のためのプロキシで強化されたモデルが、隠れた共同設立のシフトによって引き起こされる課題を緩和できることを示します。
論文 参考訳(メタデータ) (2025-05-27T16:50:44Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Investigating Forgetting in Pre-Trained Representations Through
Continual Learning [51.30807066570425]
事前学習した言語モデルの汎用性に及ぼす表現忘れの影響について検討する。
様々な事前学習されたLMで一般化が破壊され,構文的・意味的知識は連続学習によって忘れられることがわかった。
論文 参考訳(メタデータ) (2023-05-10T08:27:59Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。