論文の概要: Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.19919v1
- Date: Tue, 19 May 2026 14:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.406179
- Title: Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning
- Title(参考訳): アクションResidualsを超えて:Bottleneck潜伏強化学習による実世界のロボットポリシーステアリング
- Authors: Dongjie Yu, Kun Lei, Zhennan Jiang, Jia Pan, Huazhe Xu,
- Abstract要約: 本稿では,Z-Perturbation Reinforcement Learning (ZPRL)を提案する。
現実世界では、ZPRLは模倣ベースポリシーよりも4つのタスクの平均成功率を33.7%向上させる。
- 参考スコア(独自算出の注目度): 42.74142065376427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained imitation policies have become a strong foundation for robot manipulation, but they often require online improvement to overcome execution errors, limited dataset coverage, and deployment mismatch. A central question is therefore how reinforcement learning (RL) should adapt policies after offline pretraining. Existing lightweight methods commonly apply residual corrections directly in action space, but this often leads to noisy and poorly structured exploration. In this work, we propose Z-Perturbation Reinforcement Learning (ZPRL), an approach that steers pretrained policies through a compact bottleneck latent rather than through policy weights or output actions. During offline training, we augment the policy with a plug-and-play variational information bottleneck (VIB) module to extract a task-relevant latent interface from observation embeddings. During online finetuning, the base policy is frozen and RL learns only a residual perturbation on this latent, whose decoded representation conditions the frozen action generator. We instantiate ZPRL on flow-matching policies and evaluate it on eight simulation tasks and four real-world tasks. Across diverse manipulation settings, ZPRL improves both sample efficiency and final performance over strong post-training baselines. In the real world, ZPRL improves the average success rate on four tasks by 33.7% over imitation base policies while producing smoother exploration behaviors than an action residual counterpart. These results suggest that a compact, task-aligned bottleneck latent provides an effective interface for online RL adaptation. More videos can be found at https://manutdmoon.github.io/ZPRL/.
- Abstract(参考訳): 事前訓練された模倣ポリシーは、ロボット操作の強力な基盤となっているが、多くの場合、実行エラー、限られたデータセットカバレッジ、デプロイメントミスマッチを克服するために、オンライン改善が必要である。
したがって、強化学習(RL)は、オフライン事前訓練後の政策にどのように適応すべきかが中心的な疑問である。
既存の軽量な手法は、通常、アクション空間に残留補正を直接適用するが、しばしばノイズや構造的な探索に繋がる。
本研究では,Z-Perturbation Reinforcement Learning (ZPRL)を提案する。これは,政策重み付けや出力動作ではなく,コンパクトなボトルネック遅延によって事前訓練された政策を操るアプローチである。
オフライントレーニングでは、プラグイン・アンド・プレイの変動情報ボトルネック(VIB)モジュールでポリシーを強化し、観察埋め込みからタスク関連潜時インタフェースを抽出する。
オンラインでの微調整の間、基本方針は凍結され、RLはこの潜伏状態の残留摂動のみを学習し、そのデコードされた表現はフリーズアクションジェネレータとして条件付けられる。
フローマッチングポリシーに基づいてZPRLをインスタンス化し、8つのシミュレーションタスクと4つの実世界のタスクでZPRLを評価する。
さまざまな操作設定を通じて、ZPRLは、強力なトレーニング後のベースラインよりもサンプル効率と最終的なパフォーマンスの両方を改善している。
現実世界では、ZPRLは4つのタスクにおける平均成功率を、模倣ベースのポリシーよりも33.7%向上し、アクション残余よりもスムーズな探索行動を生み出している。
これらの結果から, オンラインRL適応に有効なインタフェースとして, コンパクトなタスク整合型ボトルネックラテントが有効であることが示唆された。
さらなるビデオはhttps://manutdmoon.github.io/ZPRL/で見ることができる。
関連論文リスト
- TMRL: Diffusion Timestep-Modulated Pretraining Enables Exploration for Efficient Policy Finetuning [9.021212644908767]
強化学習(RL)を用いた微調整型事前学習ロボット政策は、行動クローニング(BC)による事前学習によって引き起こされるボトルネックを継承することが多い。
本稿では,効率的なロボットポリシーの微調整を実現するために必要な探索を可能にする統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T15:07:04Z) - Jump-Start Reinforcement Learning with Vision-Language-Action Regularization [1.2599533416395767]
強化学習(RL)は、ロボット操作のための高周波閉ループ制御を可能にする。
現在の制限は、高速かつ正確な操作において直接の使用を妨げる。
探索と学習効率を向上させるために,VLAJS(Vision-Language-Action Jump-Starting)を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:17:54Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
近年のビヘイビア・クローン(BC)の進歩により、ロボットに新しいタスクを教えるのが容易になった。
しかし、教育の容易さは信頼性の低いパフォーマンスを犠牲にしている。
我々は,BCの教えやすさと長期的能力を維持しながら信頼性を克服する,シンプルで効果的な方法であるResiPを考案した。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。