論文の概要: Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
- arxiv url: http://arxiv.org/abs/2507.00990v1
- Date: Tue, 01 Jul 2025 17:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.762398
- Title: Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
- Title(参考訳): 物理デモンストレーションを使わずに生成した映像を映し出すロボットマニピュレーション
- Authors: Shivansh Patel, Shraddhaa Mohan, Hanlin Mai, Unnat Jain, Svetlana Lazebnik, Yunzhu Li,
- Abstract要約: RIGVidは、AI生成ビデオの模倣により、ロボットが複雑な操作タスクを実行できる。
ビデオ拡散モデルは潜在的なデモビデオを生成し、視覚言語モデルはコマンドに従わない結果を自動的にフィルタリングする。
6Dポーズトラッカーは、ビデオからオブジェクトの軌跡を抽出し、その軌跡をエンボディメント非依存の方法でロボットに再ターゲティングする。
- 参考スコア(独自算出の注目度): 19.28925489415787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces Robots Imitating Generated Videos (RIGVid), a system that enables robots to perform complex manipulation tasks--such as pouring, wiping, and mixing--purely by imitating AI-generated videos, without requiring any physical demonstrations or robot-specific training. Given a language command and an initial scene image, a video diffusion model generates potential demonstration videos, and a vision-language model (VLM) automatically filters out results that do not follow the command. A 6D pose tracker then extracts object trajectories from the video, and the trajectories are retargeted to the robot in an embodiment-agnostic fashion. Through extensive real-world evaluations, we show that filtered generated videos are as effective as real demonstrations, and that performance improves with generation quality. We also show that relying on generated videos outperforms more compact alternatives such as keypoint prediction using VLMs, and that strong 6D pose tracking outperforms other ways to extract trajectories, such as dense feature point tracking. These findings suggest that videos produced by a state-of-the-art off-the-shelf model can offer an effective source of supervision for robotic manipulation.
- Abstract(参考訳): この研究は、ロボットが複雑な操作を行うことを可能にするシステム、RIGVid(Robots Imitating Generated Videos)を紹介している。
言語コマンドと初期シーン画像が与えられた後、ビデオ拡散モデルは潜在的なデモビデオを生成し、視覚言語モデル(VLM)はコマンドに従わない結果を自動的にフィルタリングする。
6Dポーズトラッカーは、ビデオからオブジェクトの軌跡を抽出し、その軌跡をエンボディメント非依存の方法でロボットに再ターゲティングする。
実世界の大規模な評価を通じて、フィルタリングされたビデオは実演と同じくらい効果的であり、生成品質によって性能が向上することを示す。
また,VLMを用いたキーポイント予測のような,よりコンパクトな代替手段よりも生成ビデオの方が優れており,強力な6次元ポーズトラッキングは,高密度特徴点追跡などのトラジェクトリを抽出する他の方法よりも優れていることを示す。
これらの結果は、最先端のオフザシェルフモデルによって生成されたビデオが、ロボット操作の効果的な管理源となることを示唆している。
関連論文リスト
- VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - VideoAgent: Self-Improving Video Generation [47.627088484395834]
ビデオ生成は、ロボットシステムを制御する視覚的な計画を生成するために使われてきた。
ビデオ生成を制御に活用する上での大きなボトルネックは、生成されたビデオの品質にある。
本稿では,外部からのフィードバックに基づいて生成した映像プランを自己改善するためのVideoAgentを提案する。
論文 参考訳(メタデータ) (2024-10-14T01:39:56Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。