論文の概要: V-CAGE: Vision-Closed-Loop Agentic Generation Engine for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2604.09036v1
- Date: Fri, 10 Apr 2026 06:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.734979
- Title: V-CAGE: Vision-Closed-Loop Agentic Generation Engine for Robotic Manipulation
- Title(参考訳): V-CAGE:ロボットマニピュレーションのための視覚クローズドループエージェント生成エンジン
- Authors: Yaru Liu, Ao-bo Wang, Nanyang Ye,
- Abstract要約: 本稿では,自律型ロボットデータ合成のためのエージェントフレームワークであるV-CAGEを提案する。
従来のスクリプトパイプラインとは異なり、V-CAGEはエンボディ化されたエージェントシステムとして動作する。
大規模ビデオデータセットのストレージボトルネックを克服するために、知覚駆動圧縮アルゴリズムを実装した。
- 参考スコア(独自算出の注目度): 6.820118518027692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling Vision-Language-Action (VLA) models requires massive datasets that are both semantically coherent and physically feasible. However, existing scene generation methods often lack context-awareness, making it difficult to synthesize high-fidelity environments embedded with rich semantic information, frequently resulting in unreachable target positions that cause tasks to fail prematurely. We present V-CAGE (Vision-Closed-loop Agentic Generation Engine), an agentic framework for autonomous robotic data synthesis. Unlike traditional scripted pipelines, V-CAGE operates as an embodied agentic system, leveraging foundation models to bridge high-level semantic reasoning with low-level physical interaction. Specifically, we introduce Inpainting-Guided Scene Construction to systematically arrange context-aware layouts, ensuring that the generated scenes are both semantically structured and kinematically reachable. To ensure trajectory correctness, we integrate functional metadata with a Vision-Language Model based closed-loop verification mechanism, acting as a visual critic to rigorously filter out silent failures and sever the error propagation chain. Finally, to overcome the storage bottleneck of massive video datasets, we implement a perceptually-driven compression algorithm that achieves over 90\% filesize reduction without compromising downstream VLA training efficacy. By centralizing semantic layout planning and visual self-verification, V-CAGE automates the end-to-end pipeline, enabling the highly scalable synthesis of diverse, high-quality robotic manipulation datasets.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルをスケールするには、セマンティックコヒーレントかつ物理的に実現可能な巨大なデータセットが必要である。
しかし、既存のシーン生成手法は文脈認識に欠けることが多く、リッチなセマンティック情報に埋め込まれた高忠実な環境を合成することは困難であり、多くの場合、タスクを早期に失敗させるような到達不能な目標位置を生じる。
本稿では,自律型ロボットデータ合成のためのエージェントフレームワークであるV-CAGE(Vision-Closed-loop Agentic Generation Engine)を提案する。
従来のスクリプトパイプラインとは異なり、V-CAGEはエンボディエージェントシステムとして機能し、基礎モデルを利用して低レベルの物理的相互作用で高レベルのセマンティック推論をブリッジする。
Inpainting-Guided Scene Constructionを導入し、コンテキスト対応レイアウトを体系的に配置し、生成されたシーンが意味的に構造化され、キネマティックに到達できるようにする。
トラジェクトリの正確性を確保するため、視覚的批判として機能する視覚言語モデルに基づくクローズドループ検証機構と機能メタデータを統合し、サイレント障害を厳格にフィルタリングし、エラー伝播チェーンを切断する。
最後に、大規模なビデオデータセットのストレージボトルネックを克服するために、下流VLAトレーニングの有効性を損なうことなく、90%以上のファイルサイズ削減を実現する知覚駆動圧縮アルゴリズムを実装した。
セマンティックレイアウト計画と視覚的自己検証を集中することにより、V-CAGEはエンドツーエンドパイプラインを自動化し、多様な高品質なロボット操作データセットの高度にスケーラブルな合成を可能にする。
関連論文リスト
- RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。
RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。
シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-12T11:18:52Z) - UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph [23.060488218180936]
We present UniManip, a framework based on a Bi-level Agentic Operational Graph (AOG)
タスクオーケストレーションのための高レベルのエージェント層と、動的状態表現のための低レベルのScene Layerを結合することにより、システムは、抽象的な計画と幾何学的制約を継続的に整合させる。
実験では、未確認のオブジェクトやタスクに対するシステムの堅牢なゼロショット能力を評価し、最先端のVLAや階層的なベースラインと比較して22.5%と25.0%の成功率を示した。
論文 参考訳(メタデータ) (2026-02-13T16:47:26Z) - V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks [6.820118518027692]
V-CAGEは、大規模なセマンティックアライメントデータセットを生成するクローズドループフレームワークである。
本研究では,シーン合成における幾何学的整合性を実現する文脈認識型インスタンス化機構を提案する。
また、階層的な命令分解モジュールを用いて、抽象意図と低レベル制御のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-21T16:41:51Z) - Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。