論文の概要: Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control
- arxiv url: http://arxiv.org/abs/2604.03540v2
- Date: Thu, 09 Apr 2026 15:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.858563
- Title: Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control
- Title(参考訳): ドリフトに基づくポリシー最適化:オンラインロボット制御のためのネイティブワンステップポリシー学習
- Authors: Yuxuan Gao, Yedong Shen, Shiqi Zhang, Wenhao Yu, Yifan Duan, Jia pan, Jiajia Wu, Jiajun Deng, Yanyong Zhang,
- Abstract要約: 多段階生成ポリシーは、多モード動作分布をモデル化することにより、ロボット操作において強力な性能を達成する。
各アクションは、数十から数百のネットワーク機能評価を必要とする。
本稿では,改良を推論からトレーニングにシフトさせる,ネイティブなワンステップ生成ポリシーのための2段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.5826210330077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although multi-step generative policies achieve strong performance in robotic manipulation by modeling multimodal action distributions, they require multi-step iterative denoising at inference time. Each action therefore needs tens to hundreds of network function evaluations (NFEs), making them costly for high-frequency closed-loop control and online reinforcement learning (RL). To address this limitation, we propose a two-stage framework for native one-step generative policies that shifts refinement from inference to training. First, we introduce the Drift-Based Policy (DBP), which leverages fixed-point drifting objectives to internalize iterative refinement into the model parameters, yielding a one-step generative backbone by design while preserving multimodal action modeling capacity. Second, we develop Drift-Based Policy Optimization (DBPO), an online RL framework that equips the pretrained backbone with a compatible stochastic interface, enabling stable on-policy updates without sacrificing the one-step deployment property. Extensive experiments demonstrate the effectiveness of the proposed framework across offline imitation learning, online fine-tuning, and real-world control scenarios. DBP matches or exceeds the performance of multi-step diffusion policies while achieving up to $100\times$ faster inference. It also consistently outperforms existing one-step baselines on challenging manipulation benchmarks. Moreover, DBPO enables effective and stable policy improvement in online settings. Experiments on a real-world dual-arm robot demonstrate reliable high-frequency control at 105.2 Hz.
- Abstract(参考訳): マルチステップ生成ポリシーは,マルチモーダルな動作分布をモデル化することでロボット操作において高い性能を達成するが,推論時に複数ステップの反復的認知が必要となる。
したがって、各アクションは数十から数百のネットワーク機能評価(NFE)を必要とし、高周波閉ループ制御とオンライン強化学習(RL)に費用がかかる。
この制限に対処するために、推論からトレーニングへ洗練をシフトさせるネイティブワンステップ生成ポリシーのための2段階のフレームワークを提案する。
まず、Drift-Based Policy(DBP)を導入し、固定点ドリフトの目的を利用してモデルパラメータに反復的洗練を内包し、マルチモーダルアクションモデリング能力を保ちながら設計により1段階生成バックボーンを生成する。
第二に、Drift-Based Policy Optimization (DBPO) は、事前訓練されたバックボーンと互換性のある確率的インタフェースを備えたオンラインRLフレームワークであり、一段階のデプロイメントプロパティを犠牲にすることなく、安定したオンライン更新を可能にする。
大規模な実験は、オフラインの模倣学習、オンラインの微調整、実世界の制御シナリオにまたがって提案されたフレームワークの有効性を実証する。
DBPはマルチステップ拡散ポリシーのパフォーマンスにマッチするか、超過しますが、最大100\times$高速な推論を実現します。
また、既存のワンステップベースラインを、困難な操作ベンチマークで一貫して上回る。
さらに、DBPOはオンライン設定において、効果的で安定したポリシー改善を可能にする。
実世界のデュアルアームロボットの実験では、105.2Hzで信頼性の高い高周波制御が実証された。
関連論文リスト
- IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning [13.655904209137006]
オフラインプランニングをデータ生成,教師付きトレーニング,オンライン推論にシームレスに組み込む新しいフレームワークである textbfImaginary Planning Distillation (IPD) を提案する。
まず,オフラインデータから不確実性対策と準最適値関数を備えた世界モデルを学習する。
従来の手動で調整した戻り値関数を準最適値関数に置き換えることで、IDDは推論時の意思決定安定性と性能を改善する。
論文 参考訳(メタデータ) (2026-03-04T17:05:39Z) - Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。