論文の概要: Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control
- arxiv url: http://arxiv.org/abs/2603.09221v1
- Date: Tue, 10 Mar 2026 05:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.068572
- Title: Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control
- Title(参考訳): テストタイムトレーニングを超えて - ハードウェア効率のよい最適制御による推論学習
- Authors: Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal,
- Abstract要約: 我々は、最適制御として推論を定式化し、推論時に潜在状態に対して有限水平LQR計画を行うテスト時間制御層を導入する。
アーキテクチャ層として最適制御を組み込むことは、テスト時間トレーニングを超えた推論のための効果的でスケーラブルなメカニズムを提供することを実証する。
- 参考スコア(独自算出の注目度): 86.63490309209378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Associative memory has long underpinned the design of sequential models. Beyond recall, humans reason by projecting future states and selecting goal-directed actions, a capability that modern language models increasingly require but do not natively encode. While prior work uses reinforcement learning or test-time training, planning remains external to the model architecture. We formulate reasoning as optimal control and introduce the Test-Time Control (TTC) layer, which performs finite-horizon LQR planning over latent states at inference time, represents a value function within neural architectures, and leverages it as the nested objective to enable planning before prediction. To ensure scalability, we derive a hardware-efficient LQR solver based on a symplectic formulation and implement it as a fused CUDA kernel, enabling parallel execution with minimal overhead. Integrated as an adapter into pretrained LLMs, TTC layers improve mathematical reasoning performance by up to +27.8% on MATH-500 and 2-3x Pass@8 improvements on AMC and AIME, demonstrating that embedding optimal control as an architectural component provides an effective and scalable mechanism for reasoning beyond test-time training.
- Abstract(参考訳): 連想記憶は、シーケンシャルモデルの設計を長い間支えてきた。
思い出の他に、人間は将来の状態を投影し、ゴール指向のアクションを選択することによって推論する。
事前の作業では強化学習やテストタイムトレーニングが使用されているが、プランニングはモデルアーキテクチャの外部に留まっている。
我々は、最適制御として推論を定式化し、推論時に潜在状態に対して有限水平LQR計画を実行するテスト時間制御(TTC)層を導入し、ニューラルネットワーク内の値関数をネストした目的として利用し、予測前の計画を可能にする。
拡張性を確保するため、シンプレクティックな定式化に基づいてハードウェア効率の良いLQRソルバを導出し、それを融合CUDAカーネルとして実装し、最小オーバーヘッドで並列実行を可能にする。
事前訓練されたLCMへのアダプタとして統合されたTTCレイヤは、MATH-500で最大+27.8%、AMCとAIMEで2-3x Pass@8の改善を実現し、アーキテクチャコンポーネントとして最適制御を組み込むことは、テストタイムトレーニング以上の推論のための効果的でスケーラブルなメカニズムを提供することを示した。
関連論文リスト
- EdgeReasoning: Characterizing Reasoning LLM Deployment on Edge GPUs [0.36050743818632486]
エッジGPU上の推論タスクのための大規模言語モデル(LLM)は、厳格なレイテンシ制約と限られた計算リソースから重要な課題に直面している。
これらの制約をナビゲートするには、推論と非推論アーキテクチャのバランス、適切なモデルサイズの選択、トークン予算の割り当て、テスト時のスケーリング戦略の適用が必要です。
We present EdgeReasoning, a comprehensive study that the deployment of reasoning LLMs on edge GPUs。
論文 参考訳(メタデータ) (2025-10-21T04:18:25Z) - Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts [19.518525241726916]
Encode-Think-Decode (ETD) は、トレーニング中の推論関連レイヤの小さなサブセットを反復するようにトレーニングすることで、ベースモデルの推論能力を向上する手法である。
ETDモデルは、GSM8Kで+28.4%、OLMo-2 1Bベースモデルで+36%の相対精度の改善を含む17の推論ベンチマークで大幅に向上した。
論文 参考訳(メタデータ) (2025-10-08T15:58:35Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。
評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-03-15T15:11:17Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - To Code or not to Code? Adaptive Tool Integration for Math Language Models via Expectation-Maximization [30.057052324461534]
本稿では,メタ認知ツール利用決定と進化能力の間の自己強化サイクルを構築するために,構造化探索(E-step)と非政治最適化(M-step)を併用する新しいフレームワークを提案する。
当社の7Bモデルは、MATH500では11%、AIMEでは9.4%、o1のようなCoTでは9.4%改善しています。
論文 参考訳(メタデータ) (2025-02-02T06:32:23Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。