論文の概要: MALLVI: a multi agent framework for integrated generalized robotics manipulation
- arxiv url: http://arxiv.org/abs/2602.16898v1
- Date: Wed, 18 Feb 2026 21:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.415486
- Title: MALLVI: a multi agent framework for integrated generalized robotics manipulation
- Title(参考訳): 汎用ロボット操作のためのマルチエージェントフレームワークMALLVI
- Authors: Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani, AmirHossein Jadidi, Saina Kashani, Babak Khalaj,
- Abstract要約: クローズドループフィードバック駆動型ロボット操作を実現するフレームワークであるMALLViを提案する。
単一のモデルを使用する代わりに、MALLViは特別なエージェントをコーディネートして、知覚、ローカライゼーション、推論、高レベルの計画を管理する。
実験により、反復閉ループ多重エージェント調整は一般化を改善し、ゼロショット操作タスクの成功率を増加させることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task planning for robotic manipulation with large language models (LLMs) is an emerging area. Prior approaches rely on specialized models, fine tuning, or prompt tuning, and often operate in an open loop manner without robust environmental feedback, making them fragile in dynamic settings.We present MALLVi, a Multi Agent Large Language and Vision framework that enables closed loop feedback driven robotic manipulation. Given a natural language instruction and an image of the environment, MALLVi generates executable atomic actions for a robot manipulator. After action execution, a Vision Language Model (VLM) evaluates environmental feedback and decides whether to repeat the process or proceed to the next step.Rather than using a single model, MALLVi coordinates specialized agents, Decomposer, Localizer, Thinker, and Reflector, to manage perception, localization, reasoning, and high level planning. An optional Descriptor agent provides visual memory of the initial state. The Reflector supports targeted error detection and recovery by reactivating only relevant agents, avoiding full replanning.Experiments in simulation and real world settings show that iterative closed loop multi agent coordination improves generalization and increases success rates in zero shot manipulation tasks.Code available at https://github.com/iman1234ahmadi/MALLVI.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いたロボット操作のためのタスクプランニングが新興分野である。
従来のアプローチでは, 特殊なモデル, 微調整, 即時チューニングに頼っており, 環境フィードバックの堅牢さを伴わずにオープンループ方式で動作することが多かったため, 動的環境下では脆弱であり, クローズドループフィードバック駆動ロボット操作が可能なマルチエージェント大規模言語・ビジョンフレームワークであるMALLViが提案されている。
自然言語と環境の画像が与えられた後、MALLViはロボットマニピュレータに対して実行可能な原子アクションを生成する。
行動実行後、視覚言語モデル(VLM)は環境フィードバックを評価し、プロセスを繰り返し、次のステップに進むかを決定するが、MALLViは特定のエージェント、デコンポザ、ローカライザ、シンガー、リフレクタを調整し、知覚、ローカライゼーション、推論、高レベルプランニングを管理する。
オプションのDescriptorエージェントは初期状態のビジュアルメモリを提供する。
Reflectorは、関連するエージェントのみをリアクティベートし、完全なリプランを避けることで、ターゲットとなるエラー検出とリカバリをサポートする。シミュレーションと実世界の設定の実験では、反復的なクローズドループのマルチエージェント調整が一般化を改善し、ゼロショット操作タスクの成功率を高めることが示されている。
関連論文リスト
- Improving Generalization of Language-Conditioned Robot Manipulation [29.405161073483175]
いくつかの実演からオブジェクトアレンジメントタスクを学習するフレームワークを提案する。
シミュレーション環境と実世界のロボット環境の両方において,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-08-04T13:29:26Z) - AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making [35.83717913117858]
AntiGroundingは、命令のグラウンディングプロセスをリバースする新しいフレームワークである。
候補アクションをVLM表現空間に直接持ち上げる。
複数のビューからトラジェクトリを描画し、命令ベースの意思決定に構造化された視覚的質問応答を使用する。
論文 参考訳(メタデータ) (2025-06-14T07:11:44Z) - OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。
実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。