論文の概要: GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.11049v1
- Date: Thu, 14 Aug 2025 20:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.660463
- Title: GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning
- Title(参考訳): GenFlowRL:ビジュアル強化学習における生成的オブジェクト中心フローによるリワード形成
- Authors: Kelin Yu, Sheng Zhang, Harshit Soora, Furong Huang, Heng Huang, Pratap Tokekar, Ruohan Gao,
- Abstract要約: 本稿では,多種多様な組織間データセットから学習した生成フローから,形状の報酬を導出するGenFlowRLを提案する。
GenFlowRLは、生成したオブジェクト中心の流れから抽出した操作機能を効果的に活用できることを、シミュレーションと実世界のクロスエボディメント評価の両方で実証した。
- 参考スコア(独自算出の注目度): 79.68241687396603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have shown that video generation models can enhance robot learning by deriving effective robot actions through inverse dynamics. However, these methods heavily depend on the quality of generated data and struggle with fine-grained manipulation due to the lack of environment feedback. While video-based reinforcement learning improves policy robustness, it remains constrained by the uncertainty of video generation and the challenges of collecting large-scale robot datasets for training diffusion models. To address these limitations, we propose GenFlowRL, which derives shaped rewards from generated flow trained from diverse cross-embodiment datasets. This enables learning generalizable and robust policies from diverse demonstrations using low-dimensional, object-centric features. Experiments on 10 manipulation tasks, both in simulation and real-world cross-embodiment evaluations, demonstrate that GenFlowRL effectively leverages manipulation features extracted from generated object-centric flow, consistently achieving superior performance across diverse and challenging scenarios. Our Project Page: https://colinyu1.github.io/genflowrl
- Abstract(参考訳): 近年, 映像生成モデルは, 逆ダイナミクスによる効果的なロボット動作の導出により, ロボット学習の促進を図っている。
しかし,これらの手法は生成データの品質に大きく依存しており,環境フィードバックの欠如による微粒な操作に苦慮している。
ビデオベースの強化学習は、ポリシーの堅牢性を改善するが、ビデオ生成の不確実性や、拡散モデルの訓練のための大規模ロボットデータセット収集の難しさに制約されている。
これらの制約に対処するため、さまざまなクロスボディーメントデータセットからトレーニングした生成されたフローから、形状の報酬を導出するGenFlowRLを提案する。
これにより、低次元のオブジェクト中心の機能を使用して、多様なデモンストレーションから、一般化可能で堅牢なポリシーを学ぶことができる。
GenFlowRLは、生成したオブジェクト中心の流れから抽出した操作機能を効果的に利用し、多種多様な難易度シナリオにおいて一貫して優れたパフォーマンスを達成することを実証した。
プロジェクトページ: https://colinyu1.github.io/genflowrl
関連論文リスト
- AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。
我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-17T05:31:42Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - VITAL: Interactive Few-Shot Imitation Learning via Visual Human-in-the-Loop Corrections [10.49712834719005]
イミテーション・ラーニング(IL)はロボット工学において強力なアプローチとして登場し、ロボットは人間の行動を模倣することで新しいスキルを身につけることができる。
その可能性にもかかわらず、ILのデータ収集プロセスは、ロジスティックな困難と高品質なデモンストレーションの獲得に伴う高コストのため、依然として重要な課題である。
本稿では,シミュレーションにおけるデータ拡張を通じて,少数の実演から大規模データ生成を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - CLOUD: Contrastive Learning of Unsupervised Dynamics [19.091886595825947]
コントラスト推定により、完全に教師のない方法で前方・逆ダイナミクスを学習することを提案する。
目標指向計画や観察からの模倣など,さまざまなタスクにまたがるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-23T15:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。