論文の概要: ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance
- arxiv url: http://arxiv.org/abs/2504.16464v1
- Date: Wed, 23 Apr 2025 07:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.031166
- Title: ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance
- Title(参考訳): ManipDreamer:アクションツリーと視覚誘導を備えたロボットマニピュレーション世界モデル
- Authors: Ying Li, Xiaobao Wei, Xiaowei Chi, Yuming Li, Zhongyu Zhao, Hao Wang, Ningning Ma, Ming Lu, Shanghang Zhang,
- Abstract要約: 本稿では,アクションツリーと視覚誘導に基づく先進世界モデルであるManipDreamerを紹介する。
アクションツリーとビジュアルガイダンスに基づいて、ManipDreamerは命令追跡能力と視覚的品質を大幅に向上させる。
- 参考スコア(独自算出の注目度): 28.98444789581013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advancements in robotic manipulation video synthesis have shown promise, significant challenges persist in ensuring effective instruction-following and achieving high visual quality. Recent methods, like RoboDreamer, utilize linguistic decomposition to divide instructions into separate lower-level primitives, conditioning the world model on these primitives to achieve compositional instruction-following. However, these separate primitives do not consider the relationships that exist between them. Furthermore, recent methods neglect valuable visual guidance, including depth and semantic guidance, both crucial for enhancing visual quality. This paper introduces ManipDreamer, an advanced world model based on the action tree and visual guidance. To better learn the relationships between instruction primitives, we represent the instruction as the action tree and assign embeddings to tree nodes, each instruction can acquire its embeddings by navigating through the action tree. The instruction embeddings can be used to guide the world model. To enhance visual quality, we combine depth and semantic guidance by introducing a visual guidance adapter compatible with the world model. This visual adapter enhances both the temporal and physical consistency of video generation. Based on the action tree and visual guidance, ManipDreamer significantly boosts the instruction-following ability and visual quality. Comprehensive evaluations on robotic manipulation benchmarks reveal that ManipDreamer achieves large improvements in video quality metrics in both seen and unseen tasks, with PSNR improved from 19.55 to 21.05, SSIM improved from 0.7474 to 0.7982 and reduced Flow Error from 3.506 to 3.201 in unseen tasks, compared to the recent RoboDreamer model. Additionally, our method increases the success rate of robotic manipulation tasks by 2.5% in 6 RLbench tasks on average.
- Abstract(参考訳): ロボット操作ビデオ合成の最近の進歩は、将来性を示しているが、効果的な指示追従と高い視覚的品質の実現には、大きな課題が続いている。
RoboDreamerのような最近の手法は、言語的な分解を利用して命令を下位のプリミティブに分割し、これらのプリミティブに世界モデルを条件付け、コンストラクショナルなインストラクションフォローを実現する。
しかし、これら2つのプリミティブはそれらの間の関係を考慮していない。
さらに,近年の手法は,視覚的品質向上に不可欠である深度や意味的指導など,貴重な視覚的指導を無視している。
本稿では,アクションツリーと視覚誘導に基づく先進世界モデルであるManipDreamerを紹介する。
命令プリミティブ間の関係をよりよく学習するために、命令をアクションツリーとして表現し、ツリーノードに埋め込みを割り当てる。
命令の埋め込みは世界モデルを導くのに使うことができる。
視覚的品質を高めるために,世界モデルと互換性のある視覚的誘導適応を導入することで,深度とセマンティックガイダンスを組み合わせる。
このビジュアルアダプタは、ビデオ生成の時間的および物理的整合性を高める。
アクションツリーとビジュアルガイダンスに基づいて、ManipDreamerは命令追跡能力と視覚的品質を大幅に向上させる。
ロボット操作ベンチマークに関する総合的な評価によると、ManipDreamerはビデオ品質の指標を大幅に改善し、PSNRは19.55から21.05に改善され、SSIMは0.7474から0.7982に改善され、フローエラーは最近のRoboDreamerモデルと比較して3.506から3.201に削減された。
さらに,ロボット操作作業の成功率を平均6 RLbenchタスクで2.5%向上させる。
関連論文リスト
- Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning [55.339257446600634]
大規模命令追従データに基づいて訓練された強力な3DLLMであるRobin3Dを紹介する。
我々は,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。
Robin3Dは、広く使用されている5つのマルチモーダル学習ベンチマークにおいて、従来方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-09-30T21:55:38Z) - Interactive Visual Task Learning for Robots [4.114444605090135]
本稿では,人間ユーザとの言語対話を通じて,ロボットが新しい視覚概念やタスクを学習するための枠組みを提案する。
概念階層内の親ノードに新しい概念の情報を付加するHi-Viscontを提案する。
視覚的なタスクを言語アノテーション付きシーングラフとして表現し、デモされたタスクゼロショットの新規な置換をin-situで作成する。
論文 参考訳(メタデータ) (2023-12-20T17:38:04Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。