論文の概要: FASTER: Value-Guided Sampling for Fast RL
- arxiv url: http://arxiv.org/abs/2604.19730v1
- Date: Tue, 21 Apr 2026 17:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.913148
- Title: FASTER: Value-Guided Sampling for Fast RL
- Title(参考訳): FASTER: 高速RLのためのバリューガイドサンプリング
- Authors: Perry Dong, Alexander Swerdlow, Dorsa Sadigh, Chelsea Finn,
- Abstract要約: FASTERは、計算コストを伴わずに拡散ベースのポリシーのサンプリングベースのテストタイムスケーリングの利点を得る方法である。
FASTERは、トレーニングと推論の計算要求を大幅に削減しながら、同じパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 103.55398181003262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some of the most performant reinforcement learning algorithms today can be prohibitively expensive as they use test-time scaling methods such as sampling multiple action candidates and selecting the best one. In this work, we propose FASTER, a method for getting the benefits of sampling-based test-time scaling of diffusion-based policies without the computational cost by tracing the performance gain of action samples back to earlier in the denoising process. Our key insight is that we can model the denoising of multiple action candidates and selecting the best one as a Markov Decision Process (MDP) where the goal is to progressively filter action candidates before denoising is complete. With this MDP, we can learn a policy and value function in the denoising space that predicts the downstream value of action candidates in the denoising process and filters them while maximizing returns. The result is a method that is lightweight and can be plugged into existing generative RL algorithms. Across challenging long-horizon manipulation tasks in online and batch-online RL, FASTER consistently improves the underlying policies and achieves the best overall performance among the compared methods. Applied to a pretrained VLA, FASTER achieves the same performance while substantially reducing training and inference compute requirements. Code is available at https://github.com/alexanderswerdlow/faster .
- Abstract(参考訳): 現在最も高性能な強化学習アルゴリズムのいくつかは、複数のアクション候補をサンプリングしたり、最良のものを選択するといったテスト時間スケーリング手法を使用するため、違法にコストがかかる可能性がある。
そこで本研究では,本研究で提案するFASTERを提案する。このFASTERは,拡散型ポリシーのサンプリングベーステストタイムスケーリングの利点を計算コストを使わずに得られる手法である。
私たちのキーとなる洞察は、複数のアクション候補の特定をモデル化し、最良の候補をマルコフ決定プロセス(MDP)として選択できるということです。
このMDPにより、デノナイジング空間におけるポリシーと値関数を学習し、デノナイジング過程におけるアクション候補の下流値を予測するとともに、リターンを最大化しながらそれらをフィルタリングする。
その結果、軽量で、既存の生成RLアルゴリズムにプラグインできる。
オンラインおよびバッチオンラインRLにおける長期操作タスクの課題に対して、FASTERは根底にあるポリシーを一貫して改善し、比較したメソッドの中で最高の全体的なパフォーマンスを達成する。
事前訓練されたVLAに適用されたFASTERは、トレーニングと推論の計算要求を大幅に削減しながら、同じパフォーマンスを達成する。
コードはhttps://github.com/alexanderswerdlow/fasterで入手できる。
関連論文リスト
- $S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models [10.157422365382933]
テスト時間スケーリングは、より多くの推論計算が与えられたとき、固定拡散言語モデル(DLM)がより良い出力を生成できるかどうかを調べる。
S3$ (Stratified Scaling Search) は,デノナイズ処理中に計算を再配置することで生成を改善するバリデーション誘導探索法である。
LLaDA-8B-Instruct on MATH-500, GSM8K, ARC-Challenge, TruthfulQA による実験では、S3$ はベンチマーク全体のパフォーマンスを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-07T00:51:06Z) - Real-Time Iteration Scheme for Diffusion Policy [23.124189676943757]
本稿では,RTI(Real-Time Iteration)スキームにインスパイアされた新しい手法を導入し,推論を高速化する。
本稿では,ロボット操作における把握などの離散的な動作を効果的に扱うためのスケーリング手法を提案する。
提案方式は蒸留や政策の再設計を必要とせず,実行時の計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-08-07T13:49:00Z) - From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization [7.531052649961168]
検証可能な報酬付き強化学習(RLVR)は、最近、大規模言語モデル(LLM)の推論能力を進歩させた。
サンプル中心の観点からRLVRを調査し,プログレッシブ最適化手法の枠組みであるLPPOを導入する。
私たちの仕事は、データボリュームを単にスケールアップするのではなく、小さな信頼性のある高品質なデモを最大限に活用する方法という、重要な問題に対処しています。
論文 参考訳(メタデータ) (2025-07-09T06:05:28Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement
Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。
本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T10:04:00Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。