論文の概要: V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks
- arxiv url: http://arxiv.org/abs/2601.15164v1
- Date: Wed, 21 Jan 2026 16:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.46224
- Title: V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks
- Title(参考訳): V-CAGE:スケーラブルな長軸エンボディタスクのコンテキスト認識生成と検証
- Authors: Yaru Liu, Ao-bo Wang, Nanyang Ye,
- Abstract要約: V-CAGEは、大規模なセマンティックアライメントデータセットを生成するクローズドループフレームワークである。
本研究では,シーン合成における幾何学的整合性を実現する文脈認識型インスタンス化機構を提案する。
また、階層的な命令分解モジュールを用いて、抽象意図と低レベル制御のギャップを埋める。
- 参考スコア(独自算出の注目度): 6.820118518027692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning long-horizon embodied behaviors from synthetic data remains challenging because generated scenes are often physically implausible, language-driven programs frequently "succeed" without satisfying task semantics, and high-level instructions require grounding into executable action sequences. To address these limitations, we introduce V-CAGE, a closed-loop framework for generating robust, semantically aligned manipulation datasets at scale. First, we propose a context-aware instantiation mechanism that enforces geometric consistency during scene synthesis. By dynamically maintaining a map of prohibited spatial areas as objects are placed, our system prevents interpenetration and ensures reachable, conflict-free configurations in cluttered environments. Second, to bridge the gap between abstract intent and low-level control, we employ a hierarchical instruction decomposition module. This decomposes high-level goals (e.g., "get ready for work") into compositional action primitives, facilitating coherent long-horizon planning. Crucially, we enforce semantic correctness through a VLM-based verification loop. Acting as a visual critic, the VLM performs rigorous rejection sampling after each subtask, filtering out "silent failures" where code executes but fails to achieve the visual goal. Experiments demonstrate that V-CAGE yields datasets with superior physical and semantic fidelity, significantly boosting the success rate and generalization of downstream policies compared to non-verified baselines.
- Abstract(参考訳): 生成シーンは物理的に理解できないことが多く、言語駆動プログラムはタスクのセマンティクスを満たさずにしばしば「学習」され、ハイレベルな命令は実行可能なアクションシーケンスに基礎を置く必要があるため、合成データから長い水平な動作を学ぶことは依然として困難である。
これらの制限に対処するため、我々は大規模にロバストでセマンティックに整合した操作データセットを生成するクローズドループフレームワークであるV-CAGEを紹介した。
まず,シーン合成における幾何学的整合性を実現する文脈認識型インスタンス化機構を提案する。
オブジェクトの配置として禁止された空間領域のマップを動的に維持することにより,相互接続を防止し,乱れの少ない環境における到達可能なコンフリクトのない構成を確保する。
第二に、抽象意図と低レベル制御のギャップを埋めるために、階層的な命令分解モジュールを用いる。
これは、高レベルの目標(例えば、"仕事の準備が整う"など)を構成的アクションプリミティブに分解し、一貫性のある長期計画を容易にします。
重要なことは、VLMベースの検証ループを通じて意味的正当性を強制する。
視覚的批判として、VLMは各サブタスクの後に厳格な拒絶サンプリングを行い、コードが実行されるが視覚的目標を達成することができない「サイレント障害」を除去する。
実験により、V-CAGEは、より優れた物理的および意味的忠実度を持つデータセットを出力し、検証されていないベースラインに比べて、下流ポリシーの成功率と一般化を著しく向上させることが示された。
関連論文リスト
- Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-04T18:33:27Z) - From Code to Action: Hierarchical Learning of Diffusion-VLM Policies [8.0703783175731]
ロボット操作の模倣学習はしばしば、限られた一般化とデータ不足に悩まされる。
本稿では,コード生成型視覚言語モデル(VLM)を活用した階層型フレームワークを提案する。
この設計は、解釈可能なポリシーの分解を可能にし、フラットなポリシーと比較して一般化を改善し、高レベルの計画と低レベルの制御を別々に評価できるようにする。
論文 参考訳(メタデータ) (2025-09-29T15:22:18Z) - SAGE: Scene Graph-Aware Guidance and Execution for Long-Horizon Manipulation Tasks [3.688836621357062]
ロングホライゾン操作タスクは、拡張されたアクションシーケンスと複雑なオブジェクトの相互作用を含む。
長軸操作タスクにおけるSAGE(Scene Graph-Aware Guidance and Execution)の新たなフレームワークを提案する。
SAGE は,(1) VLM と LLM を用いて環境解析を行うシーングラフベースのタスクプランナと,(2) 対象のサブゴールグラフを対応する画像に変換する分離構造画像編集パイプラインから構成される。
論文 参考訳(メタデータ) (2025-09-26T06:14:55Z) - Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。
近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。
我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Universal Visual Decomposer: Long-Horizon Manipulation Made Easy [54.93745986073738]
現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
従来のタスク分解手法では、タスク固有の知識が必要であり、計算集約的であり、新しいタスクに容易に適用できない。
視覚的長時間水平方向操作のためのオフザシェルフタスク分解法であるUniversal Visual Decomposer (UVD)を提案する。
シミュレーションと実世界のタスクの両方でUVDを広範囲に評価し、すべての場合において、UVDは模倣と強化学習設定でベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-12T17:59:41Z) - Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning [60.501201259732625]
EFCILにタスク適応型サリエンシを導入し、タスク適応型サリエンシ・スーパービジョン(TASS)と呼ばれる新しいフレームワークを提案する。
提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset EFCILベンチマークを用いて,タスク間のサリエンシマップの保存や,最先端の成果の達成に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-16T02:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。