論文の概要: VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.09049v1
- Date: Tue, 10 Jun 2025 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:43.075492
- Title: VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
- Title(参考訳): VIKI-R:強化学習による多エージェント協調のコーディネート
- Authors: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin,
- Abstract要約: 組込みマルチエージェント協調に適した最初の階層型ベンチマークであるVIKI-Benchを紹介する。
VIKI-Benchには、多様なロボットエボディメント、多視点視覚観察、構造化された監視信号が含まれる。
VIKI-Benchの実用性を実証するために、事前学習された視覚言語モデルを微調整する2段階フレームワークVIKI-Rを提案する。
- 参考スコア(独自算出の注目度): 22.328157991424533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coordinating multiple embodied agents in dynamic environments remains a core challenge in artificial intelligence, requiring both perception-driven reasoning and scalable cooperation strategies. While recent works have leveraged large language models (LLMs) for multi-agent planning, a few have begun to explore vision-language models (VLMs) for visual reasoning. However, these VLM-based approaches remain limited in their support for diverse embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical benchmark tailored for embodied multi-agent cooperation, featuring three structured levels: agent activation, task planning, and trajectory perception. VIKI-Bench includes diverse robot embodiments, multi-view visual observations, and structured supervision signals to evaluate reasoning grounded in visual inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a two-stage framework that fine-tunes a pretrained vision-language model (VLM) using Chain-of-Thought annotated demonstrations, followed by reinforcement learning under multi-level reward signals. Our extensive experiments show that VIKI-R significantly outperforms baselines method across all task levels. Furthermore, we show that reinforcement learning enables the emergence of compositional cooperation patterns among heterogeneous agents. Together, VIKI-Bench and VIKI-R offer a unified testbed and method for advancing multi-agent, visual-driven cooperation in embodied AI systems.
- Abstract(参考訳): 動的環境における複数の実施エージェントのコーディネートは、認識駆動推論とスケーラブルな協調戦略の両方を必要とする人工知能において、依然として中心的な課題である。
最近の研究では、多エージェント計画のための大規模言語モデル (LLM) を活用しているが、視覚的推論のための視覚言語モデル (VLM) の研究も始まっている。
しかしながら、これらのVLMベースのアプローチは、多様な実施形態のサポートにおいて制限されている。
本研究では, エージェントアクティベーション, タスク計画, 軌道知覚の3段階を特徴とする, マルチエージェント協調のための最初の階層型ベンチマークであるVIKI-Benchを紹介する。
VIKI-Benchには、多様なロボットエボディメント、多視点視覚観察、視覚入力の根拠となる推論を評価するための構造化された監視信号が含まれる。
VIKI-Benchの実用性を実証するために、Chain-of-Thoughtアノテーションを用いた事前学習型視覚言語モデル(VLM)を微調整し、次いでマルチレベル報酬信号による強化学習を行う2段階フレームワークであるVIKI-Rを提案する。
我々の広範囲な実験により、VIKI-Rは全てのタスクレベルにおいて、ベースライン法を著しく上回っていることが示されている。
さらに, 強化学習は, 異種エージェント間の合成協調パターンの出現を可能にすることを示す。
VIKI-BenchとVIKI-Rは、統合テストベッドと、具体化されたAIシステムにおいて、マルチエージェントで視覚駆動的な協力を進めるための方法を提供している。
関連論文リスト
- Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning [11.526471286502993]
ビデオベースヒューマンオブジェクトインタラクション(V-HOI)検出は,セマンティックシーン理解において重要な課題である。
以前のV-HOI検出モデルは、特定のデータセットの正確な検出に大きく進歩した。
本稿では、現在のV-HOI検出モデルの性能向上を図るために、V-HOI Multi-LLMs Collaborated Reasoning (V-HOI MLCR)を提案する。
論文 参考訳(メタデータ) (2024-03-15T08:51:15Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。