論文の概要: ManiAgent: An Agentic Framework for General Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2510.11660v2
- Date: Tue, 14 Oct 2025 03:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 12:06:24.268918
- Title: ManiAgent: An Agentic Framework for General Robotic Manipulation
- Title(参考訳): ManiAgent: 汎用ロボットマニピュレーションのためのエージェントフレームワーク
- Authors: Yi Yang, Kefan Gu, Yuqing Wen, Hebei Li, Yucheng Zhao, Tiancai Wang, Xudong Liu,
- Abstract要約: 汎用操作のためのエージェントアーキテクチャであるManiAgentを紹介する。
複数のエージェントは、環境認識、サブタスク分解、アクション生成を行うためのエージェント間通信を含む。
ManiAgentはSimplerEnvベンチマークで86.8%、現実世界のピック・アンド・プレイスタスクで95.8%の成功率を達成した。
- 参考スコア(独自算出の注目度): 30.154478145473792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language-Action (VLA) models have demonstrated impressive capabilities in robotic manipulation, their performance in complex reasoning and long-horizon task planning is limited by data scarcity and model capacity. To address this, we introduce ManiAgent, an agentic architecture for general manipulation tasks that achieves end-to-end output from task descriptions and environmental inputs to robotic manipulation actions. In this framework, multiple agents involve inter-agent communication to perform environmental perception, sub-task decomposition and action generation, enabling efficient handling of complex manipulation scenarios. Evaluations show ManiAgent achieves an 86.8% success rate on the SimplerEnv benchmark and 95.8% on real-world pick-and-place tasks, enabling efficient data collection that yields VLA models with performance comparable to those trained on human-annotated datasets. The project webpage is available at https://yi-yang929.github.io/ManiAgent/.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルはロボット操作において顕著な能力を示してきたが、複雑な推論や長期タスク計画のパフォーマンスは、データの不足とモデル能力によって制限されている。
そこで本研究では,タスク記述と環境入力からロボット操作動作へのエンド・ツー・エンド出力を実現する,汎用的な操作タスクのためのエージェントアーキテクチャであるManiAgentを紹介する。
本フレームワークでは,複数のエージェントがエージェント間通信によって環境認識,サブタスク分解,アクション生成を行い,複雑な操作シナリオの効率的な処理を可能にする。
評価の結果、ManiAgentはSimplerEnvベンチマークで86.8%、現実世界のピック・アンド・プレイスタスクで95.8%の成功率を達成した。
プロジェクトのWebページはhttps://yi-yang929.github.io/ManiAgent/で公開されている。
関連論文リスト
- AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation [24.199522837278128]
本稿では,タスク固有の条件からアクション実行を分離するタスク非依存のアクションパラダイムを提案する。
ATARAはスケーラブルなセルフ教師付きフレームワークで、人間の遠隔操作と比較して30倍以上のコレクションを高速化する。
我々はArm-Decoupled EstimationとDirection-Aware Decoderを備えた逆動的モデルであるAnyPosを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:48:57Z) - AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。
我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文 参考訳(メタデータ) (2025-06-17T05:46:52Z) - OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。