論文の概要: TARo: Token-level Adaptive Routing for LLM Test-time Alignment
- arxiv url: http://arxiv.org/abs/2603.18411v1
- Date: Thu, 19 Mar 2026 02:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.913659
- Title: TARo: Token-level Adaptive Routing for LLM Test-time Alignment
- Title(参考訳): TARo:LLMテストタイムアライメントのためのトークンレベル適応ルーティング
- Authors: Arushi Rai, Qiang Zhang, Hanqing Zeng, Yunkai Zhang, Dipesh Tamboli, Xiangjun Fan, Zhuokai Zhao,
- Abstract要約: TARoステアは、推論時に完全に構造化された推論に向けて、大きな言語モデルを凍結した。
大規模な実験により、TARoはベースモデルで最大+22.4%の推論性能を著しく改善することが示された。
TARoはまた、小から大のバックボーンから再訓練せずに一般化する。
- 参考スコア(独自算出の注目度): 15.824259013420807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit strong reasoning capabilities but typically require expensive post-training to reach high performance. Recent test-time alignment methods offer a lightweight alternative, but have been explored mainly for preference alignment rather than reasoning. To bridge this gap, we propose, Token-level Adaptive Routing (TARo), which steers frozen LLMs toward structured reasoning entirely at inference time. Specifically, we first train reward models on step-wise mathematical traces to capture fine-grained logical consistency signals, then introduce a learnable token-level router that automatically controls the guidance of the reward model to the base model. Extensive experiments show that TARo significantly improves reasoning performance by up to +22.4% over base model and +8.4% over existing token-level test-time alignment methods, while also boosting out-of-distribution clinical reasoning (MedXpertQA) and instruction following (AlpacaEval). Furthermore, TARo also generalizes from small to large backbones without retraining, extending test-time alignment from preference optimization to robust, cross-domain reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力な推論能力を持つが、高いパフォーマンスを得るためには高価な後処理が必要である。
最近のテスト時間アライメント手法は軽量な代替手段を提供するが、主に推論よりも優先アライメントのために研究されている。
このギャップを埋めるため, 推論時に完全に構造化された推論に向けて, LLM を操るToken-level Adaptive Routing (TARo)を提案する。
具体的には、まず、ステップワイズな数学的トレースで報酬モデルを訓練し、より詳細な論理的整合性信号を取得し、次にベースモデルに対する報酬モデルのガイダンスを自動的に制御する学習可能なトークンレベルルータを導入する。
大規模な実験では、TARoはベースモデルで+22.4%、既存のトークンレベルのテストタイムアライメント法で+8.4%、アウト・オブ・ディストリビューション(MedXpertQA)とインストラクション・フォロー(AlpacaEval)で、推論性能を著しく向上させる。
さらに、TARoは、リトレーニングなしで小さなから大きなバックボーンを一般化し、テスト時間アライメントを好みの最適化から堅牢でクロスドメインな推論まで拡張する。
関連論文リスト
- $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Reasoning Pattern Alignment Merging for Adaptive Reasoning [48.347817456299104]
Reasoning Pattern Alignment Merging (RPAM)
RPAMは、クエリ適応推論を容易にする機能アライメントに基づく階層的なモデルマージフレームワークである。
広く使用されている7つの推論ベンチマークの実験により、RPAMは強い性能を維持しながら推論コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-01-07T01:36:39Z) - Learning to Ponder: Adaptive Reasoning in Latent Space [2.8835557003761747]
我々は、潜時ステアリングによるインスタンス適応推論計算を割り当てる単一グラフのバックボーン学習自由フレームワークFR-Ponderを提案する。
GSM8KとMATH500では、FR-Ponderは計算精度のフロンティアを改善し、一致した精度で低いFLOPを提供し、早期出力ベースラインと比較する。
論文 参考訳(メタデータ) (2025-09-29T03:21:42Z) - PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。
PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。
我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文 参考訳(メタデータ) (2025-07-26T21:46:32Z) - Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。