論文の概要: SpeedAug: Policy Acceleration via Tempo-Enriched Policy and RL Fine-Tuning
- arxiv url: http://arxiv.org/abs/2512.00062v1
- Date: Mon, 24 Nov 2025 04:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.032538
- Title: SpeedAug: Policy Acceleration via Tempo-Enriched Policy and RL Fine-Tuning
- Title(参考訳): SpeedAug: テンポ強化政策とRLファインチューニングによる政策加速
- Authors: Taewook Nam, Sung Ju Hwang,
- Abstract要約: 強化学習(Reinforcement learning)は、より高速な実行のためにポリシーを適用する、有望なアプローチである。
タスク実行の高速化のために事前学習されたポリシーを効率的に適応するRLベースのポリシーアクセラレーションフレームワークであるSpeedAugを提案する。
- 参考スコア(独自算出の注目度): 52.29534291796025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in robotic policy learning have enabled complex manipulation in real-world environments, yet the execution speed of these policies often lags behind hardware capabilities due to the cost of collecting faster demonstrations. Existing works on policy acceleration reinterpret action sequence for unseen execution speed, thereby encountering distributional shifts from the original demonstrations. Reinforcement learning is a promising approach that adapts policies for faster execution without additional demonstration, but its unguided exploration is sample inefficient. We propose SpeedAug, an RL-based policy acceleration framework that efficiently adapts pre-trained policies for faster task execution. SpeedAug constructs behavior prior that encompasses diverse tempos of task execution by pre-training a policy on speed-augmented demonstrations. Empirical results on robotic manipulation benchmarks show that RL fine-tuning initialized from this tempo-enriched policy significantly improves the sample efficiency of existing RL and policy acceleration methods while maintaining high success rate.
- Abstract(参考訳): ロボットポリシー学習の最近の進歩により、現実の環境で複雑な操作が可能になったが、これらのポリシーの実行速度は、より高速なデモンストレーションの収集コストのため、ハードウェア機能より遅れることが多い。
既存のポリシーアクセラレーションは、実行速度の未確認に対する動作シーケンスを再解釈することで、元のデモから分布シフトに遭遇する。
強化学習(Reinforcement learning)は、より高速な実行のためにポリシーを適用する、有望なアプローチである。
タスク実行の高速化のために事前学習されたポリシーを効率的に適応するRLベースのポリシーアクセラレーションフレームワークであるSpeedAugを提案する。
SpeedAugは、スピード強化されたデモのポリシーを事前訓練することで、タスク実行のさまざまなテンポを含む振る舞いを構築する。
ロボット操作ベンチマークによる実験結果から, このテンポ強化ポリシから初期化したRL微調整は, 高い成功率を維持しつつ, 既存のRLと政策加速法のサンプル効率を著しく向上させることが示された。
関連論文リスト
- Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control [50.316067647636196]
本稿では,モバイルアプリ制御タスクで評価された新規な非政治強化学習アルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザーインターフェースナビゲーションのための微調整基礎モデルにおいて、非政治的アクター-批判的アプローチを修正することで、サンプル効率を改善する。
我々は、成功した対話から学習を優先するSTR(Success Transition Replay)でSOLSを増強する。
論文 参考訳(メタデータ) (2025-09-01T18:55:27Z) - Steering Your Diffusion Policy with Latent Space Reinforcement Learning [46.598122553180005]
行動クローニング(BC)が引き起こした政策は通常、行動を改善するために追加の人間のデモを集める必要がある。
強化学習(RL)は、自律的なオンラインポリシーの改善を可能にするという約束を持っているが、通常必要とされる大量のサンプルのために、これを達成できないことが多い。
DSRLはサンプリング効率が高く,BCポリシーへのブラックボックスアクセスしか必要とせず,実世界の自律的政策改善に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-18T18:35:57Z) - SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies [20.52085846080824]
オフライン・イミテーション・ラーニング(IL)法は複雑なロボット操作技術を得るのに効果的である。
既存のILトレーニングされたポリシーは、デモデータに示すように、タスクを同じ速度で実行することに限定される。
本稿では,ビジュモータポリシーの高速化を実現するための新しい問題を紹介し,定式化する。
論文 参考訳(メタデータ) (2025-06-13T16:58:20Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control [8.720903734757627]
我々は, 高速な予測サンプリング手法を利用して, 前方通過毎に軌道のバッチ処理を行うことにより, 政策最適化手法を開発した。
重機を用いた基準追従制御実験の訓練方針における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-28T09:31:15Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。