論文の概要: ETS: Energy-Guided Test-Time Scaling for Training-Free RL Alignment
- arxiv url: http://arxiv.org/abs/2601.21484v1
- Date: Thu, 29 Jan 2026 10:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.723219
- Title: ETS: Energy-Guided Test-Time Scaling for Training-Free RL Alignment
- Title(参考訳): ETS: 無トレーニングRLアライメントのためのエネルギー誘導テスト時間スケーリング
- Authors: Xiuyu Li, Jinkai Zhang, Mingyang Yi, Yu Li, Longqiang Wang, Yue Wang, Ju Fan,
- Abstract要約: 本稿では,最適強化学習ポリシーから直接サンプルを採取する学習自由推論手法を提案する。
我々のアルゴリズムであるETS (Energy-Guided Test-Time Scaling) は、オンラインモンテカルロによる重要なエネルギーの項を証明可能な収束率で推定する。
ETSはサンプリング品質を確実に保ちながら、推論遅延を大幅に低減する。
- 参考スコア(独自算出の注目度): 20.498600810211293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) post-training alignment for language models is effective, but also costly and unstable in practice, owing to its complicated training process. To address this, we propose a training-free inference method to sample directly from the optimal RL policy. The transition probability applied to Masked Language Modeling (MLM) consists of a reference policy model and an energy term. Based on this, our algorithm, Energy-Guided Test-Time Scaling (ETS), estimates the key energy term via online Monte Carlo, with a provable convergence rate. Moreover, to ensure practical efficiency, ETS leverages modern acceleration frameworks alongside tailored importance sampling estimators, substantially reducing inference latency while provably preserving sampling quality. Experiments on MLM (including autoregressive models and diffusion language models) across reasoning, coding, and science benchmarks show that our ETS consistently improves generation quality, validating its effectiveness and design.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、言語モデルのトレーニング後のアライメントが効果的であるが、複雑なトレーニングプロセスのため、実際はコストがかかり不安定である。
そこで本研究では,最適なRLポリシから直接サンプルをサンプリングする,トレーニング不要な推論手法を提案する。
Masked Language Modeling (MLM) に適用される遷移確率は、参照ポリシーモデルとエネルギー項からなる。
これに基づいて,我々のアルゴリズムであるETS (Energy-Guided Test-Time Scaling) は,オンラインモンテカルロによる重要なエネルギー項を,証明可能な収束率で推定する。
さらに, 実効性を確保するため, ETSでは, サンプリング品質を確実に保ちつつ, 推論遅延を大幅に低減し, 重要度を推定すると共に, 現代の加速フレームワークを活用している。
MLM(自己回帰モデルや拡散言語モデルを含む)の推論、コーディング、科学ベンチマークによる実験は、ETSが生成品質を一貫して改善し、その有効性と設計を検証していることを示している。
関連論文リスト
- DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward [93.04811239892852]
強化学習(Reinforcement Learning, RL)は近年, 拡散モデルに組み入れられている。
本稿では,拡散型修復モデルにRLを効果的に組み込む方法について検討する。
論文 参考訳(メタデータ) (2025-11-03T14:57:57Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Uncertainty-Aware Model-Based Reinforcement Learning with Application to
Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。
このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。
開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文 参考訳(メタデータ) (2021-06-23T06:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。