Fugu-MT 論文翻訳(概要): VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

論文の概要: VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2506.09049v1
Date: Tue, 10 Jun 2025 17:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:43.075492
Title: VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
Title（参考訳）: VIKI-R:強化学習による多エージェント協調のコーディネート
Authors: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin,
Abstract要約: 組込みマルチエージェント協調に適した最初の階層型ベンチマークであるVIKI-Benchを紹介する。 VIKI-Benchには、多様なロボットエボディメント、多視点視覚観察、構造化された監視信号が含まれる。 VIKI-Benchの実用性を実証するために、事前学習された視覚言語モデルを微調整する2段階フレームワークVIKI-Rを提案する。
参考スコア（独自算出の注目度）: 22.328157991424533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Coordinating multiple embodied agents in dynamic environments remains a core challenge in artificial intelligence, requiring both perception-driven reasoning and scalable cooperation strategies. While recent works have leveraged large language models (LLMs) for multi-agent planning, a few have begun to explore vision-language models (VLMs) for visual reasoning. However, these VLM-based approaches remain limited in their support for diverse embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical benchmark tailored for embodied multi-agent cooperation, featuring three structured levels: agent activation, task planning, and trajectory perception. VIKI-Bench includes diverse robot embodiments, multi-view visual observations, and structured supervision signals to evaluate reasoning grounded in visual inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a two-stage framework that fine-tunes a pretrained vision-language model (VLM) using Chain-of-Thought annotated demonstrations, followed by reinforcement learning under multi-level reward signals. Our extensive experiments show that VIKI-R significantly outperforms baselines method across all task levels. Furthermore, we show that reinforcement learning enables the emergence of compositional cooperation patterns among heterogeneous agents. Together, VIKI-Bench and VIKI-R offer a unified testbed and method for advancing multi-agent, visual-driven cooperation in embodied AI systems.
Abstract（参考訳）: 動的環境における複数の実施エージェントのコーディネートは、認識駆動推論とスケーラブルな協調戦略の両方を必要とする人工知能において、依然として中心的な課題である。最近の研究では、多エージェント計画のための大規模言語モデル (LLM) を活用しているが、視覚的推論のための視覚言語モデル (VLM) の研究も始まっている。しかしながら、これらのVLMベースのアプローチは、多様な実施形態のサポートにおいて制限されている。本研究では, エージェントアクティベーション, タスク計画, 軌道知覚の3段階を特徴とする, マルチエージェント協調のための最初の階層型ベンチマークであるVIKI-Benchを紹介する。 VIKI-Benchには、多様なロボットエボディメント、多視点視覚観察、視覚入力の根拠となる推論を評価するための構造化された監視信号が含まれる。 VIKI-Benchの実用性を実証するために、Chain-of-Thoughtアノテーションを用いた事前学習型視覚言語モデル(VLM)を微調整し、次いでマルチレベル報酬信号による強化学習を行う2段階フレームワークであるVIKI-Rを提案する。我々の広範囲な実験により、VIKI-Rは全てのタスクレベルにおいて、ベースライン法を著しく上回っていることが示されている。さらに, 強化学習は, 異種エージェント間の合成協調パターンの出現を可能にすることを示す。 VIKI-BenchとVIKI-Rは、統合テストベッドと、具体化されたAIシステムにおいて、マルチエージェントで視覚駆動的な協力を進めるための方法を提供している。

関連論文リスト

A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文参考訳（メタデータ） (2025-05-01T02:40:30Z)
Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文参考訳（メタデータ） (2025-02-14T13:23:18Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning [11.526471286502993]
ビデオベースヒューマンオブジェクトインタラクション(V-HOI)検出は,セマンティックシーン理解において重要な課題である。以前のV-HOI検出モデルは、特定のデータセットの正確な検出に大きく進歩した。本稿では、現在のV-HOI検出モデルの性能向上を図るために、V-HOI Multi-LLMs Collaborated Reasoning (V-HOI MLCR)を提案する。
論文参考訳（メタデータ） (2024-03-15T08:51:15Z)
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。 DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-10-28T23:00:40Z)
CH-MARL: A Multimodal Benchmark for Cooperative, Heterogeneous Multi-Agent Reinforcement Learning [15.686200550604815]
マルチルームホーム環境において,複数の模擬異種ロボット間の協調作業を含むタスクを含むベンチマークデータセットを提案する。我々は、統合学習フレームワーク、最先端マルチエージェント強化学習技術のマルチモーダル実装、一貫した評価プロトコルを提供する。
論文参考訳（メタデータ） (2022-08-26T02:21:31Z)
How to Sense the World: Leveraging Hierarchy in Multimodal Perception for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。 MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文参考訳（メタデータ） (2021-10-07T16:35:23Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。