論文の概要: NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos
- arxiv url: http://arxiv.org/abs/2510.08568v1
- Date: Thu, 09 Oct 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.311039
- Title: NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos
- Title(参考訳): NovaFlow: 生成したビデオからのアクション可能なフローによるゼロショット操作
- Authors: Hongyu Li, Lingfeng Sun, Yafei Hu, Duy Ta, Jennifer Barry, George Konidaris, Jiahui Fu,
- Abstract要約: NovaFlowは、タスク記述をターゲットロボットの実行可能な計画に変換する、自律的な操作フレームワークである。
我々は,テーブルトップのフランカアームとスポット四足歩行ロボットを用いて,剛性,調音性,変形可能な物体操作タスクを検証した。
- 参考スコア(独自算出の注目度): 13.84832813181084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling robots to execute novel manipulation tasks zero-shot is a central goal in robotics. Most existing methods assume in-distribution tasks or rely on fine-tuning with embodiment-matched data, limiting transfer across platforms. We present NovaFlow, an autonomous manipulation framework that converts a task description into an actionable plan for a target robot without any demonstrations. Given a task description, NovaFlow synthesizes a video using a video generation model and distills it into 3D actionable object flow using off-the-shelf perception modules. From the object flow, it computes relative poses for rigid objects and realizes them as robot actions via grasp proposals and trajectory optimization. For deformable objects, this flow serves as a tracking objective for model-based planning with a particle-based dynamics model. By decoupling task understanding from low-level control, NovaFlow naturally transfers across embodiments. We validate on rigid, articulated, and deformable object manipulation tasks using a table-top Franka arm and a Spot quadrupedal mobile robot, and achieve effective zero-shot execution without demonstrations or embodiment-specific training. Project website: https://novaflow.lhy.xyz/.
- Abstract(参考訳): ロボットが新しい操作タスクをゼロショットで実行できるようにすることは、ロボット工学の中心的な目標である。
既存のほとんどのメソッドは、分散タスクを前提とするか、具体化されたデータによる微調整に依存し、プラットフォーム間の転送を制限する。
我々は,タスク記述を動作可能な目標ロボットの動作計画に変換する,自律的な操作フレームワークであるNovaFlowを提案する。
タスク記述が与えられた場合、NovaFlowはビデオ生成モデルを使用してビデオを合成し、オフザシェルフ認識モジュールを使用して3D動作可能なオブジェクトフローに蒸留する。
物体の流れから、剛体物体の相対的なポーズを計算し、提案の把握と軌道最適化によってロボットの動作として実現する。
変形可能なオブジェクトの場合、このフローは粒子ベースの動的モデルを用いたモデルベース計画の追跡対象として機能する。
タスク理解を低レベルのコントロールから切り離すことで、NovaFlowは自然にエボディメントを横断します。
本研究では, テーブルトップのフランカアームとスポット四足歩行ロボットを用いて, 剛体・調音・変形可能な物体操作タスクを検証し, 実演や具体的訓練なしに効果的なゼロショット実行を実現する。
プロジェクトウェブサイト:https://novaflow.lhy.xyz/.com
関連論文リスト
- NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning [36.20611975009607]
クローズドループVLMとビデオプランニングを統合した階層型フレームワークであるNovaPlanを紹介する。
高いレベルでは、VLMプランナーはタスクをサブゴールに分解し、クローズドループでロボットの実行を監視する。
低レベルのロボット動作を計算するために,タスク関連オブジェクトキーポイントと人手ポーズの両方を抽出し,活用する。
論文 参考訳(メタデータ) (2026-02-23T18:35:18Z) - Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow [21.658558775915267]
本研究では3次元オブジェクトフローを中間表現として,映像生成とロボット制御をブリッジするフレームワークDream2Flowを紹介する。
本手法は,生成した映像から3次元物体の動きを再構成し,物体軌跡追跡として定式化する。
Dream2Flowは、エボディメントギャップを克服し、事前訓練されたビデオモデルからのゼロショットガイダンスにより、さまざまなカテゴリのオブジェクトを操作することができる。
論文 参考訳(メタデータ) (2025-12-31T10:25:24Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model [40.730112146035076]
主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。
現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。
我々は人間とロボットの操作データから3次元フローワールドモデルを学ぶ。
論文 参考訳(メタデータ) (2025-06-06T16:00:31Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Flow as the Cross-Domain Manipulation Interface [73.15952395641136]
Im2Flow2Actは、現実世界のロボットのトレーニングデータを必要とせずに、ロボットが現実世界の操作スキルを習得することを可能にする。
Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。
我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。
論文 参考訳(メタデータ) (2024-07-21T16:15:02Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。