論文の概要: Translating Flow to Policy via Hindsight Online Imitation
- arxiv url: http://arxiv.org/abs/2512.19269v1
- Date: Mon, 22 Dec 2025 11:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.721839
- Title: Translating Flow to Policy via Hindsight Online Imitation
- Title(参考訳): Hindsight Online Imitationによる政策へのフローの翻訳
- Authors: Yitian Zheng, Zhangchen Ye, Weijun Dong, Shengjie Wang, Yuyang Liu, Chongjie Zhang, Chuan Wen, Yang Gao,
- Abstract要約: 階層型ロボットシステムの最近の進歩は、ハイレベルプランナーを活用してタスクプランを提案し、ロボットアクションを生成するための低レベルポリシーを提案する。
オンラインインタラクションによる低レベル政策の改善を提案する。
提案手法では,オンラインのロールアウトを収集し,達成した成果から対応するハイレベルな目標を振り返ってアノテートし,これらのハイレベルな経験を集約して,目標条件の模倣ポリシーを更新する。
- 参考スコア(独自算出の注目度): 38.92060789765008
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in hierarchical robot systems leverage a high-level planner to propose task plans and a low-level policy to generate robot actions. This design allows training the planner on action-free or even non-robot data sources (e.g., videos), providing transferable high-level guidance. Nevertheless, grounding these high-level plans into executable actions remains challenging, especially with the limited availability of high-quality robot data. To this end, we propose to improve the low-level policy through online interactions. Specifically, our approach collects online rollouts, retrospectively annotates the corresponding high-level goals from achieved outcomes, and aggregates these hindsight-relabeled experiences to update a goal-conditioned imitation policy. Our method, Hindsight Flow-conditioned Online Imitation (HinFlow), instantiates this idea with 2D point flows as the high-level planner. Across diverse manipulation tasks in both simulation and physical world, our method achieves more than $2\times$ performance improvement over the base policy, significantly outperforming the existing methods. Moreover, our framework enables policy acquisition from planners trained on cross-embodiment video data, demonstrating its potential for scalable and transferable robot learning.
- Abstract(参考訳): 階層型ロボットシステムの最近の進歩は、ハイレベルプランナーを活用してタスクプランを提案し、ロボットアクションを生成するための低レベルポリシーを提案する。
この設計では、プランナーにアクションフリーまたは非ロボットデータソース(例:ビデオ)をトレーニングし、転送可能な高レベルガイダンスを提供する。
しかし、特に高品質なロボットデータの入手が限られているため、これらのハイレベルな計画を実行可能な行動に基礎付けることは依然として困難である。
そこで本稿では,オンラインインタラクションによる低レベル政策の改善を提案する。
具体的には、オンラインのロールアウトを収集し、達成した成果から対応するハイレベルな目標を振り返ってアノテートし、これらの後見可能な経験を集約して、目標条件の模倣ポリシーを更新する。
提案手法であるHindsight Flow-conditioned Online Imitation (HinFlow)では,高レベルプランナとして2次元点流をインスタンス化する。
シミュレーションと物理界における多種多様な操作タスクに対して,本手法は基本方針よりも2ドル以上の性能向上を実現し,既存手法よりも優れていた。
さらに、我々のフレームワークは、クロスプラットフォームビデオデータに基づいて訓練されたプランナーからのポリシー取得を可能にし、スケーラブルで移動可能なロボット学習の可能性を示す。
関連論文リスト
- GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。