論文の概要: MMAC-Copilot: Multi-modal Agent Collaboration Operating Copilot
- arxiv url: http://arxiv.org/abs/2404.18074v3
- Date: Sun, 23 Mar 2025 13:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:20.274237
- Title: MMAC-Copilot: Multi-modal Agent Collaboration Operating Copilot
- Title(参考訳): MMAC-Copilot:マルチモーダルエージェント協調運用コパイロット
- Authors: Zirui Song, Yaohang Li, Meng Fang, Yanda Li, Zhenhao Chen, Zecheng Shi, Yuan Huang, Xiuying Chen, Ling Chen,
- Abstract要約: PCアプリケーションと対話する大規模言語モデルエージェントは、実環境とのインタラクションの特異なモードのため、しばしば制限に直面します。
アプリケーションとのインタラクション能力を高めるために,Multi-Modal Agent Collaboration framework (MMAC-Copilot)を提案する。
GAIAベンチマークと新たに導入したビジュアルインタラクションベンチマーク(VIBench)を用いてMMAC-Copilotを評価する。
- 参考スコア(独自算出の注目度): 26.47394285021318
- License:
- Abstract: Large language model agents that interact with PC applications often face limitations due to their singular mode of interaction with real-world environments, leading to restricted versatility and frequent hallucinations. To address this, we propose the Multi-Modal Agent Collaboration framework (MMAC-Copilot), a framework utilizes the collective expertise of diverse agents to enhance interaction ability with application. The framework introduces a team collaboration chain, enabling each participating agent to contribute insights based on their specific domain knowledge, effectively reducing the hallucination associated with knowledge domain gaps. We evaluate MMAC-Copilot using the GAIA benchmark and our newly introduced Visual Interaction Benchmark (VIBench). MMAC-Copilot achieved exceptional performance on GAIA, with an average improvement of 6.8\% over existing leading systems. VIBench focuses on non-API-interactable applications across various domains, including 3D gaming, recreation, and office scenarios. It also demonstrated remarkable capability on VIBench. We hope this work can inspire in this field and provide a more comprehensive assessment of Autonomous agents. The anonymous Github is available at \href{https://anonymous.4open.science/r/ComputerAgentWithVision-3C12}{Anonymous Github}
- Abstract(参考訳): PCアプリケーションと対話する大規模言語モデルエージェントは、実環境との相互作用の特異なモードによって制限に直面し、汎用性や頻繁な幻覚が制限される。
そこで本研究では,MMAC-Copilot(Multi-Modal Agent Collaboration framework)を提案する。
このフレームワークはチームコラボレーションチェーンを導入し、各参加エージェントがそれぞれのドメイン知識に基づいて洞察を提供することを可能にし、知識ドメインのギャップに関連する幻覚を効果的に軽減する。
GAIAベンチマークと新たに導入したビジュアルインタラクションベンチマーク(VIBench)を用いてMMAC-Copilotを評価した。
MMAC-CopilotはGAIAにおいて、既存の主要なシステムよりも平均6.8\%向上した。
VIBenchは,3Dゲームやレクリエーション,オフィスシナリオなど,さまざまな領域にわたるAPI操作不能なアプリケーションに重点を置いている。
VIBenchでも顕著な性能を示した。
この研究がこの分野に刺激を与え、より包括的な自律エージェントの評価を提供することを期待しています。
Github は \href{https://anonymous.4open.science/r/ComputerWithVision-3C12}{Anonymous Github} で公開されている。
関連論文リスト
- WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving [54.365702251769456]
我々は、駆動シーケンス当たり平均8.4エージェントのデータセットを提示する。
自律運転データセットの中で最大のエージェントと視点を提供するだけでなく、WHALESはエージェントの振る舞いを記録する。
エージェントスケジューリングタスクにおいて,エゴエージェントが複数の候補エージェントの1つを選択して協調する実験を行う。
論文 参考訳(メタデータ) (2024-11-20T14:12:34Z) - Scaling Large-Language-Model-based Multi-Agent Collaboration [75.5241464256688]
大規模言語モデルによるエージェントのパイオニア化は、マルチエージェントコラボレーションの設計パターンを暗示している。
神経スケーリング法則に触発された本研究では,マルチエージェント協調におけるエージェントの増加に類似の原理が適用されるかを検討する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-02-12T07:29:22Z) - Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird's Eye View Segmentation for Connected and Autonomous Driving [49.03947018718156]
協調的な知覚の訓練と推論の段階で利用される統合されたドメイン一般化フレームワークを提案する。
また、システム内ドメインアライメント機構を導入し、コネクテッドおよび自律走行車間のドメインの差を減らし、潜在的に排除する。
論文 参考訳(メタデータ) (2023-11-28T12:52:49Z) - MACP: Efficient Model Adaptation for Cooperative Perception [23.308578463976804]
協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。
提案手法は,協調観測を効果的に活用し,他の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T14:24:42Z) - BM2CP: Efficient Collaborative Perception with LiDAR-Camera Modalities [5.034692611033509]
我々は,LiDARとカメラを用いた協調認識パラダイムBM2CPを提案し,効率的なマルチモーダル認識を実現する。
センサーの1つ、同じまたは異なるタイプのエージェントが欠落している場合に対処することができる。
提案手法は,シミュレーションおよび実世界の自律走行シナリオにおいて,50倍の通信量で最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z) - Ubiquitous Distributed Deep Reinforcement Learning at the Edge:
Analyzing Byzantine Agents in Discrete Action Spaces [0.06554326244334865]
本稿では,ビザンチンや誤作動剤の存在下で発生する多エージェント分散深層強化学習の課題について論じる。
個別行動の誤りが協調学習活動にどのように影響するかを示す。
分散マルチエージェントトレーニングにおけるアクター・クリティカル(A2C)を活かしたAtariテストベッドを用いたシミュレーション環境で実験を行った。
論文 参考訳(メタデータ) (2020-08-18T11:25:39Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。