論文の概要: Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
- arxiv url: http://arxiv.org/abs/2507.00990v1
- Date: Tue, 01 Jul 2025 17:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.762398
- Title: Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
- Title(参考訳): 物理デモンストレーションを使わずに生成した映像を映し出すロボットマニピュレーション
- Authors: Shivansh Patel, Shraddhaa Mohan, Hanlin Mai, Unnat Jain, Svetlana Lazebnik, Yunzhu Li,
- Abstract要約: RIGVidは、AI生成ビデオの模倣により、ロボットが複雑な操作タスクを実行できる。
ビデオ拡散モデルは潜在的なデモビデオを生成し、視覚言語モデルはコマンドに従わない結果を自動的にフィルタリングする。
6Dポーズトラッカーは、ビデオからオブジェクトの軌跡を抽出し、その軌跡をエンボディメント非依存の方法でロボットに再ターゲティングする。
- 参考スコア(独自算出の注目度): 19.28925489415787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces Robots Imitating Generated Videos (RIGVid), a system that enables robots to perform complex manipulation tasks--such as pouring, wiping, and mixing--purely by imitating AI-generated videos, without requiring any physical demonstrations or robot-specific training. Given a language command and an initial scene image, a video diffusion model generates potential demonstration videos, and a vision-language model (VLM) automatically filters out results that do not follow the command. A 6D pose tracker then extracts object trajectories from the video, and the trajectories are retargeted to the robot in an embodiment-agnostic fashion. Through extensive real-world evaluations, we show that filtered generated videos are as effective as real demonstrations, and that performance improves with generation quality. We also show that relying on generated videos outperforms more compact alternatives such as keypoint prediction using VLMs, and that strong 6D pose tracking outperforms other ways to extract trajectories, such as dense feature point tracking. These findings suggest that videos produced by a state-of-the-art off-the-shelf model can offer an effective source of supervision for robotic manipulation.
- Abstract(参考訳): この研究は、ロボットが複雑な操作を行うことを可能にするシステム、RIGVid(Robots Imitating Generated Videos)を紹介している。
言語コマンドと初期シーン画像が与えられた後、ビデオ拡散モデルは潜在的なデモビデオを生成し、視覚言語モデル(VLM)はコマンドに従わない結果を自動的にフィルタリングする。
6Dポーズトラッカーは、ビデオからオブジェクトの軌跡を抽出し、その軌跡をエンボディメント非依存の方法でロボットに再ターゲティングする。
実世界の大規模な評価を通じて、フィルタリングされたビデオは実演と同じくらい効果的であり、生成品質によって性能が向上することを示す。
また,VLMを用いたキーポイント予測のような,よりコンパクトな代替手段よりも生成ビデオの方が優れており,強力な6次元ポーズトラッキングは,高密度特徴点追跡などのトラジェクトリを抽出する他の方法よりも優れていることを示す。
これらの結果は、最先端のオフザシェルフモデルによって生成されたビデオが、ロボット操作の効果的な管理源となることを示唆している。
関連論文リスト
- ORV: 4D Occupancy-centric Robot Video Generation [33.360345403049685]
遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。
ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。
ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
論文 参考訳(メタデータ) (2025-06-03T17:00:32Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - VideoAgent: Self-Improving Video Generation [47.627088484395834]
ビデオ生成は、ロボットシステムを制御する視覚的な計画を生成するために使われてきた。
ビデオ生成を制御に活用する上での大きなボトルネックは、生成されたビデオの品質にある。
本稿では,外部からのフィードバックに基づいて生成した映像プランを自己改善するためのVideoAgentを提案する。
論文 参考訳(メタデータ) (2024-10-14T01:39:56Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。