論文の概要: UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph
- arxiv url: http://arxiv.org/abs/2602.13086v1
- Date: Fri, 13 Feb 2026 16:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.440091
- Title: UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph
- Title(参考訳): UniManip: エージェント操作グラフを用いた汎用ゼロショットロボットマニピュレーション
- Authors: Haichao Liu, Yuanjiang Xue, Yuheng Zhou, Haoyuan Deng, Yinan Liang, Lihua Xie, Ziwei Wang,
- Abstract要約: We present UniManip, a framework based on a Bi-level Agentic Operational Graph (AOG)
タスクオーケストレーションのための高レベルのエージェント層と、動的状態表現のための低レベルのScene Layerを結合することにより、システムは、抽象的な計画と幾何学的制約を継続的に整合させる。
実験では、未確認のオブジェクトやタスクに対するシステムの堅牢なゼロショット能力を評価し、最先端のVLAや階層的なベースラインと比較して22.5%と25.0%の成功率を示した。
- 参考スコア(独自算出の注目度): 23.060488218180936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving general-purpose robotic manipulation requires robots to seamlessly bridge high-level semantic intent with low-level physical interaction in unstructured environments. However, existing approaches falter in zero-shot generalization: end-to-end Vision-Language-Action (VLA) models often lack the precision required for long-horizon tasks, while traditional hierarchical planners suffer from semantic rigidity when facing open-world variations. To address this, we present UniManip, a framework grounded in a Bi-level Agentic Operational Graph (AOG) that unifies semantic reasoning and physical grounding. By coupling a high-level Agentic Layer for task orchestration with a low-level Scene Layer for dynamic state representation, the system continuously aligns abstract planning with geometric constraints, enabling robust zero-shot execution. Unlike static pipelines, UniManip operates as a dynamic agentic loop: it actively instantiates object-centric scene graphs from unstructured perception, parameterizes these representations into collision-free trajectories via a safety-aware local planner, and exploits structured memory to autonomously diagnose and recover from execution failures. Extensive experiments validate the system's robust zero-shot capability on unseen objects and tasks, demonstrating a 22.5% and 25.0% higher success rate compared to state-of-the-art VLA and hierarchical baselines, respectively. Notably, the system enables direct zero-shot transfer from fixed-base setups to mobile manipulation without fine-tuning or reconfiguration. Our open-source project page can be found at https://henryhcliu.github.io/unimanip.
- Abstract(参考訳): 汎用的なロボット操作を実現するには、非構造環境における低レベルの物理的相互作用によって、高レベルの意味的意図をシームレスにブリッジする必要がある。
エンド・ツー・エンド・ビジョン・ランゲージ・アクション(VLA)モデルは、長い水平タスクに必要な精度を欠くことが多いが、伝統的な階層的プランナーは、オープンワールドの変動に直面しているときに意味的な剛性に悩まされる。
そこで本研究では,2段階のエージェント操作グラフ(AOG)を基盤としたUniManipについて述べる。
タスクオーケストレーションのための高レベルのエージェントレイヤと、動的状態表現のための低レベルのScene Layerを結合することにより、システムは、抽象的な計画と幾何学的制約を継続的に整合させ、堅牢なゼロショット実行を可能にします。
静的パイプラインとは異なり、UniManipは動的エージェントループとして機能し、非構造化の知覚からオブジェクト中心のシーングラフを積極的にインスタンス化し、これらの表現を安全を意識したローカルプランナを介して衝突のないトラジェクトリにパラメータ化し、構造化メモリを利用して自動診断し、実行障害から回復する。
大規模な実験では、未確認のオブジェクトやタスクに対して、システムの堅牢なゼロショット能力を検証し、最先端のVLAと階層的なベースラインと比較して、22.5%と25.0%の成功率を示した。
特に、固定ベースの設定からモバイル操作への直接ゼロショット転送を、微調整や再構成をすることなく実現している。
私たちのオープンソースプロジェクトのページはhttps://henryhcliu.github.io/unimanip.com/https://henryhcliu.github.io/unimanip.comで閲覧できます。
関連論文リスト
- RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。
RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。
シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-12T11:18:52Z) - Embodied Task Planning via Graph-Informed Action Generation with Large Lanaguage Model [6.302973995986435]
GiGは、Graph-in-Graphアーキテクチャを使ってエージェントのメモリを具体化する新しい計画フレームワークである。
これらのグラフの埋め込みをクラスタ化することにより、このフレームワークは構造を意識した事前の検索を可能にする。
本フレームワークは,Robotouille Synchronous,Robotouille Asynchronous,ALFWorldの3つの具体的計画ベンチマーク上で評価する。
論文 参考訳(メタデータ) (2026-01-29T15:18:58Z) - V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks [6.820118518027692]
V-CAGEは、大規模なセマンティックアライメントデータセットを生成するクローズドループフレームワークである。
本研究では,シーン合成における幾何学的整合性を実現する文脈認識型インスタンス化機構を提案する。
また、階層的な命令分解モジュールを用いて、抽象意図と低レベル制御のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-21T16:41:51Z) - NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation [54.87964060934928]
VLA(Vision-Language-Action)モデルは、現実の展開において重要な障壁に直面している。
本稿では,軌道の狭小化に焦点を絞った新しい手法として,軌道の狭小化(Narrowing of Trajectory)VLAフレームワークを提案する。
NoTVLAは2つのクリティカルな制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。
論文 参考訳(メタデータ) (2025-10-04T18:26:55Z) - Hi-Dyna Graph: Hierarchical Dynamic Scene Graph for Robotic Autonomy in Human-Centric Environments [41.80879866951797]
Hi-Dyna Graphは階層的な動的シーングラフアーキテクチャで、永続的なグローバルレイアウトと局所的な動的セマンティクスを統合し、ロボットの自律性を具現化する。
大型言語モデル(LLM)を利用したエージェントを用いて、統一されたグラフを解釈し、遅延タスクトリガーを推論し、ロボットの余裕に基づいて実行可能な命令を生成する。
論文 参考訳(メタデータ) (2025-05-30T03:35:29Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - ReVoLT: Relational Reasoning and Voronoi Local Graph Planning for
Target-driven Navigation [1.0896567381206714]
Embodied AIは、知的な実体と現実世界の相互作用を強調する必然的なトレンドである。
グラフニューラルネットワーク(GNN)によるレイアウト関係の活用に関する研究
このタスクを分離し、階層的なフレームワークであるReVoLTを提案する。
論文 参考訳(メタデータ) (2023-01-06T05:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。