論文の概要: NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos
- arxiv url: http://arxiv.org/abs/2510.08568v1
- Date: Thu, 09 Oct 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.311039
- Title: NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos
- Title(参考訳): NovaFlow: 生成したビデオからのアクション可能なフローによるゼロショット操作
- Authors: Hongyu Li, Lingfeng Sun, Yafei Hu, Duy Ta, Jennifer Barry, George Konidaris, Jiahui Fu,
- Abstract要約: NovaFlowは、タスク記述をターゲットロボットの実行可能な計画に変換する、自律的な操作フレームワークである。
我々は,テーブルトップのフランカアームとスポット四足歩行ロボットを用いて,剛性,調音性,変形可能な物体操作タスクを検証した。
- 参考スコア(独自算出の注目度): 13.84832813181084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling robots to execute novel manipulation tasks zero-shot is a central goal in robotics. Most existing methods assume in-distribution tasks or rely on fine-tuning with embodiment-matched data, limiting transfer across platforms. We present NovaFlow, an autonomous manipulation framework that converts a task description into an actionable plan for a target robot without any demonstrations. Given a task description, NovaFlow synthesizes a video using a video generation model and distills it into 3D actionable object flow using off-the-shelf perception modules. From the object flow, it computes relative poses for rigid objects and realizes them as robot actions via grasp proposals and trajectory optimization. For deformable objects, this flow serves as a tracking objective for model-based planning with a particle-based dynamics model. By decoupling task understanding from low-level control, NovaFlow naturally transfers across embodiments. We validate on rigid, articulated, and deformable object manipulation tasks using a table-top Franka arm and a Spot quadrupedal mobile robot, and achieve effective zero-shot execution without demonstrations or embodiment-specific training. Project website: https://novaflow.lhy.xyz/.
- Abstract(参考訳): ロボットが新しい操作タスクをゼロショットで実行できるようにすることは、ロボット工学の中心的な目標である。
既存のほとんどのメソッドは、分散タスクを前提とするか、具体化されたデータによる微調整に依存し、プラットフォーム間の転送を制限する。
我々は,タスク記述を動作可能な目標ロボットの動作計画に変換する,自律的な操作フレームワークであるNovaFlowを提案する。
タスク記述が与えられた場合、NovaFlowはビデオ生成モデルを使用してビデオを合成し、オフザシェルフ認識モジュールを使用して3D動作可能なオブジェクトフローに蒸留する。
物体の流れから、剛体物体の相対的なポーズを計算し、提案の把握と軌道最適化によってロボットの動作として実現する。
変形可能なオブジェクトの場合、このフローは粒子ベースの動的モデルを用いたモデルベース計画の追跡対象として機能する。
タスク理解を低レベルのコントロールから切り離すことで、NovaFlowは自然にエボディメントを横断します。
本研究では, テーブルトップのフランカアームとスポット四足歩行ロボットを用いて, 剛体・調音・変形可能な物体操作タスクを検証し, 実演や具体的訓練なしに効果的なゼロショット実行を実現する。
プロジェクトウェブサイト:https://novaflow.lhy.xyz/.com
関連論文リスト
- Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model [40.730112146035076]
主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。
現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。
我々は人間とロボットの操作データから3次元フローワールドモデルを学ぶ。
論文 参考訳(メタデータ) (2025-06-06T16:00:31Z) - Flow as the Cross-Domain Manipulation Interface [73.15952395641136]
Im2Flow2Actは、現実世界のロボットのトレーニングデータを必要とせずに、ロボットが現実世界の操作スキルを習得することを可能にする。
Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。
我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。
論文 参考訳(メタデータ) (2024-07-21T16:15:02Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。