論文の概要: AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act
- arxiv url: http://arxiv.org/abs/2602.01662v3
- Date: Mon, 09 Mar 2026 04:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.076236
- Title: AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act
- Title(参考訳): AgenticLab: リアル世界のロボットエージェントプラットフォーム
- Authors: Pengyuan Guo, Zhonghao Mai, Zhengtong Xu, Kaidi Zhang, Heng Zhang, Zichen Miao, Arash Ajoudani, Zachary Kingston, Qiang Qiu, Yu She,
- Abstract要約: 本稿では,モデルに依存しないロボットエージェントプラットフォームであるAgenticLabと,オープンワールド操作のためのベンチマークについて紹介する。
我々は、非構造環境における実ロボットタスクに最先端のVLMベースのエージェントをベンチマークする。
私たちのベンチマークでは、オフラインの視覚言語テストがキャプチャーに失敗するいくつかの障害モードが明らかになっている。
- 参考スコア(独自算出の注目度): 27.922630781100864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large vision-language models (VLMs) have demonstrated generalizable open-vocabulary perception and reasoning, yet their real-robot manipulation capability remains unclear for long-horizon, closed-loop execution in unstructured, in-the-wild environments. Prior VLM-based manipulation pipelines are difficult to compare across different research groups' setups, and many evaluations rely on simulation, privileged state, or specially designed setups. We present AgenticLab, a model-agnostic robot agent platform and benchmark for open-world manipulation. AgenticLab provides a closed-loop agent pipeline for perception, task decomposition, online verification, and replanning. Using AgenticLab, we benchmark state-of-the-art VLM-based agents on real-robot tasks in unstructured environments. Our benchmark reveals several failure modes that offline vision-language tests (e.g., VQA and static image understanding) fail to capture, including breakdowns in multi-step grounding consistency, object grounding under occlusion and scene changes, and insufficient spatial reasoning for reliable manipulation. We will release the full hardware and software stack to support reproducible evaluation and accelerate research on general-purpose robot agents.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)の最近の進歩は、一般化可能なオープンボキャブラリ認識と推論を実証しているが、その実ロボット操作能力は、非構造的、非構造的、非構造的環境での長時間クローズドループ実行には不明確である。
以前のVLMベースの操作パイプラインは、異なる研究グループの設定間で比較することは困難であり、多くの評価はシミュレーション、特権状態、特別に設計された設定に依存している。
本稿では,モデルに依存しないロボットエージェントプラットフォームであるAgenticLabと,オープンワールド操作のためのベンチマークについて紹介する。
AgenticLabは、認識、タスクの分解、オンライン検証、リプランのためのクローズドループエージェントパイプラインを提供する。
AgenticLabを用いて、非構造化環境における実ロボットタスクに最先端のVLMベースのエージェントをベンチマークする。
本ベンチマークでは,複数ステップの接地一貫性の低下,隠蔽やシーン変更によるオブジェクトの接地,信頼性の高い操作のための空間的推論の不十分など,オフライン視覚言語テスト(VQA,静的画像理解など)が捕捉できないいくつかの障害モードを明らかにした。
我々は、再現可能な評価をサポートし、汎用ロボットエージェントの研究を加速するために、ハードウェアとソフトウェアの全スタックをリリースする。
関連論文リスト
- MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation [0.0]
MALLVIはクローズドループフィードバック駆動ロボット操作を可能にするフレームワークを提供する。
単一のモデルを使用するのではなく、MALLVIは特別なエージェントをコーディネートし、知覚、局所化、推論、高レベルの計画を管理する。
論文 参考訳(メタデータ) (2026-02-18T21:28:56Z) - UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph [23.060488218180936]
We present UniManip, a framework based on a Bi-level Agentic Operational Graph (AOG)
タスクオーケストレーションのための高レベルのエージェント層と、動的状態表現のための低レベルのScene Layerを結合することにより、システムは、抽象的な計画と幾何学的制約を継続的に整合させる。
実験では、未確認のオブジェクトやタスクに対するシステムの堅牢なゼロショット能力を評価し、最先端のVLAや階層的なベースラインと比較して22.5%と25.0%の成功率を示した。
論文 参考訳(メタデータ) (2026-02-13T16:47:26Z) - Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - State and Memory is All You Need for Robust and Reliable AI Agents [29.259008600842517]
大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。
しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。
本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
論文 参考訳(メタデータ) (2025-06-30T02:02:35Z) - From Virtual Agents to Robot Teams: A Multi-Robot Framework Evaluation in High-Stakes Healthcare Context [2.016235597066821]
現在のフレームワークは、エージェントを物理的に具体化されたエンティティではなく、概念的なタスク実行子として扱う。
本稿では,プロセスの透明性,前向きな障害回復,コンテキストグラウンド化を重視した3つの設計ガイドラインを提案する。
我々の研究は、よりレジリエントで堅牢なマルチエージェントロボットシステムの開発を知らせる。
論文 参考訳(メタデータ) (2025-06-04T04:05:38Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。