論文の概要: EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation
- arxiv url: http://arxiv.org/abs/2603.05757v1
- Date: Thu, 05 Mar 2026 23:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.966116
- Title: EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation
- Title(参考訳): EmboAlign: ゼロショット操作のための構成制約付きビデオ生成の調整
- Authors: Gehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu,
- Abstract要約: 大規模なインターネットデータに事前訓練されたビデオ生成モデル(VGM)は、時間的に一貫性のあるロールアウトビデオを生成することができる。
提案手法は,VGM出力を推論時に視覚言語モデルによって生成された洞察と整合するデータフリーフレームワークである。
本研究では,6つの実ロボット操作タスクに対して,厳密で制約に敏感な実行を必要とする手法を評価する。
- 参考スコア(独自算出の注目度): 17.037238350207513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present \method{}, a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, \method{} uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate \method{} on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.
- Abstract(参考訳): 大規模なインターネットデータに事前訓練されたビデオ生成モデル(VGM)は、時間的に一貫性のあるロールアウトビデオを生成し、リッチオブジェクトのダイナミクスをキャプチャし、ゼロショットロボット操作のための魅力的な基盤を提供する。
しかしながら、VGMは物理的に不可解なロールアウトをしばしば生成し、幾何学的再ターゲティングによってピクセル空間の動きをロボット動作に変換することにより、不完全な深さ推定とキーポイントトラッキングによる累積誤差も導入する。
これらの課題に対処するために、VGM出力を推論時に視覚言語モデル(VLM)が生成する構成制約と整合するデータフリーフレームワークである \method{} を提案する。
重要な洞察は、VLMがVGMを補完する機能を提供することである: 構造化空間推論は、操作の実行の成功と安全性に不可欠な物理的制約を特定することができる。
言語命令が与えられたら、 \method{} は VLM を使ってタスク固有の要件を抽出する一連の構成制約を自動的に抽出し、(1) 制約誘導されたロールアウト選択(VGMのロールアウトをスコアしてフィルタして最も物理的に妥当な候補を保持する)、(2) 選択されたロールアウトを初期化として使用し、同じ制約セットの下でロボットの軌道を洗練して再ターゲットエラーを修正する。
我々は,6つの実ロボット操作タスクに対して,厳密で制約に敏感な実行を要し,最強のベースライン上での総合的な成功率を43.3 %向上させることで,タスク固有のトレーニングデータなしで評価する。
関連論文リスト
- RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。
RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。
シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-12T11:18:52Z) - Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - Plan Verification for LLM-Based Embodied Task Completion Agents [10.439882851477162]
大規模言語モデル(LLM)に基づくタスク計画とそれに対応するAIの人間による実演は騒々しいかもしれない。
審査員が行動系列を批判し、プランナーLLMが修正を適用する反復検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-02T19:06:56Z) - Constrained Decoding for Robotics Foundation Models [12.916330118607918]
本稿では,自動回帰ロボット基盤モデルのための制約付き復号化フレームワークであるSafeDecを紹介する。
タスク固有の安全ルールはSignal Temporal Logic (STL) 公式として表現され、最小限のオーバーヘッドで推論時に強制される。
提案手法は,実行時に仮定された動的条件下でのSTL仕様を,再トレーニングなしで確実に満たすものである。
論文 参考訳(メタデータ) (2025-09-01T19:17:40Z) - Perceiving, Reasoning, Adapting: A Dual-Layer Framework for VLM-Guided Precision Robotic Manipulation [2.434849352801735]
VLM(Vision-Language Models)は、ロボット操作において顕著な可能性を示す。
しかし、複雑な微調整タスクを高速かつ高精度で実行する際の課題は継続する。
本稿では,ロボットの高速かつ高精度かつ誤り訂正可能な微調整を可能にするプログレッシブVLM計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-07T00:55:42Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents [105.13169239919272]
プリミティブレベルのロボット操作データセットであるRH20T-Pを提案する。
実際のシナリオで67種類の操作タスクをカバーする約38Kのビデオクリップが含まれている。
我々は、計画実行CGAパラダイムを標準化し、RH20T-PにRA-Pと呼ばれる典型的なベースラインを実装します。
論文 参考訳(メタデータ) (2024-03-28T17:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。