論文の概要: FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2505.10075v1
- Date: Thu, 15 May 2025 08:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.243403
- Title: FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation
- Title(参考訳): FlowDreamer: ロボット操作のためのフローベースモーション表現を用いたRGB-Dワールドモデル
- Authors: Jun Guo, Xiaojian Ma, Yikai Wang, Min Yang, Huaping Liu, Qing Li,
- Abstract要約: 本稿では,3次元シーンフローを明示的な動作表現として採用したFlowDreamerを紹介する。
FlowDreamerは、モジュール化された性質にもかかわらず、エンドツーエンドで訓練されている。
- 参考スコア(独自算出の注目度): 31.743202585058302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates training better visual world models for robot manipulation, i.e., models that can predict future visual observations by conditioning on past frames and robot actions. Specifically, we consider world models that operate on RGB-D frames (RGB-D world models). As opposed to canonical approaches that handle dynamics prediction mostly implicitly and reconcile it with visual rendering in a single model, we introduce FlowDreamer, which adopts 3D scene flow as explicit motion representations. FlowDreamer first predicts 3D scene flow from past frame and action conditions with a U-Net, and then a diffusion model will predict the future frame utilizing the scene flow. FlowDreamer is trained end-to-end despite its modularized nature. We conduct experiments on 4 different benchmarks, covering both video prediction and visual planning tasks. The results demonstrate that FlowDreamer achieves better performance compared to other baseline RGB-D world models by 7% on semantic similarity, 11% on pixel quality, and 6% on success rate in various robot manipulation domains.
- Abstract(参考訳): 本稿では、ロボット操作のためのより良い視覚世界モデル、すなわち過去のフレームやロボット動作を条件付けして将来の視覚的観察を予測できるモデルについて検討する。
具体的には、RGB-Dフレーム(RGB-Dワールドモデル)で動作する世界モデルを考える。
ダイナミックス予測を暗黙的に処理し、単一のモデルで視覚的レンダリングと整合する標準的なアプローチとは対照的に、3次元シーンフローを明示的な動き表現として採用するFlowDreamerを導入する。
FlowDreamerは、まず過去のフレームからの3次元シーンフローとU-Netによるアクション条件を予測し、その後、拡散モデルによりシーンフローを利用した将来のフレームを予測する。
FlowDreamerは、モジュール化された性質にもかかわらず、エンドツーエンドで訓練されている。
我々は4つの異なるベンチマーク実験を行い、映像予測と視覚計画の両方をカバーした。
その結果、FlowDreamerは、他のベースラインRGB-D世界モデルと比較して、セマンティックな類似性に7%、ピクセル品質に11%、そして様々なロボット操作領域での成功率に6%の精度で優れた性能を実現していることがわかった。
関連論文リスト
- TesserAct: Learning 4D Embodied World Models [66.8519958275311]
我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。
これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
論文 参考訳(メタデータ) (2025-04-29T17:59:30Z) - ManiTrend: Bridging Future Generation and Action Prediction with 3D Flow for Robotic Manipulation [11.233768932957771]
3次元流れは、シーン内の3次元粒子の動きの傾向を表す。
ManiTrendは3D粒子、視覚観察、操作動作のダイナミクスをモデル化する統合フレームワークである。
提案手法は最先端の性能を高い効率で達成する。
論文 参考訳(メタデータ) (2025-02-14T09:13:57Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。
グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。
本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文 参考訳(メタデータ) (2024-10-24T17:02:52Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。