Fugu-MT 論文翻訳(概要): MMAC-Copilot: Multi-modal Agent Collaboration Operating System Copilot

論文の概要: MMAC-Copilot: Multi-modal Agent Collaboration Operating System Copilot

arxiv url: http://arxiv.org/abs/2404.18074v2
Date: Sat, 4 May 2024 12:06:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 22:37:13.472211
Title: MMAC-Copilot: Multi-modal Agent Collaboration Operating System Copilot
Title（参考訳）: MMAC-Copilot:マルチモーダルエージェント協調運用システム
Authors: Zirui Song, Yaohang Li, Meng Fang, Zhenhao Chen, Zecheng Shi, Yuan Huang, Ling Chen,
Abstract要約: オペレーティングシステムとのインタラクション能力を高めるために,Multi-Modal Agent Collaboration framework (MMAC-Copilot)を提案する。このフレームワークはチームコラボレーションチェーンを導入し、各参加エージェントがそれぞれのドメイン知識に基づいて洞察をコントリビュートできるようにする。 MMAC-CopilotはGAIAにおいて、既存の主要なシステムよりも平均6.8%向上した。
参考スコア（独自算出の注目度）: 22.03327808115817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous virtual agents are often limited by their singular mode of interaction with real-world environments, restricting their versatility. To address this, we propose the Multi-Modal Agent Collaboration framework (MMAC-Copilot), a framework utilizes the collective expertise of diverse agents to enhance interaction ability with operating systems. The framework introduces a team collaboration chain, enabling each participating agent to contribute insights based on their specific domain knowledge, effectively reducing the hallucination associated with knowledge domain gaps. To evaluate the performance of MMAC-Copilot, we conducted experiments using both the GAIA benchmark and our newly introduced Visual Interaction Benchmark (VIBench). VIBench focuses on non-API-interactable applications across various domains, including 3D gaming, recreation, and office scenarios. MMAC-Copilot achieved exceptional performance on GAIA, with an average improvement of 6.8\% over existing leading systems. Furthermore, it demonstrated remarkable capability on VIBench, particularly in managing various methods of interaction within systems and applications. These results underscore MMAC-Copilot's potential in advancing the field of autonomous virtual agents through its innovative approach to agent collaboration.
Abstract（参考訳）: 自律的な仮想エージェントは、現実の環境との特異な相互作用によって制限され、その汎用性を制限する。そこで本研究では,マルチモーダルエージェント協調フレームワーク (MMAC-Copilot) を提案する。このフレームワークはチームコラボレーションチェーンを導入し、各参加エージェントがそれぞれのドメイン知識に基づいて洞察を提供することを可能にし、知識ドメインのギャップに関連する幻覚を効果的に軽減する。 MMAC-Copilotの性能を評価するため,GAIAベンチマークと新たに導入したビジュアルインタラクションベンチマーク(VIBench)を用いて実験を行った。 VIBenchは,3Dゲームやレクリエーション,オフィスシナリオなど,さまざまな領域にわたるAPI操作不能なアプリケーションに重点を置いている。 MMAC-CopilotはGAIAにおいて、既存の主要なシステムよりも平均6.8\%向上した。さらに、VIBenchでは、特にシステムやアプリケーション内でのインタラクションの様々な方法を管理する際、顕著な機能を示した。これらの結果は、MMAC-Copilotがエージェント協調に対する革新的なアプローチを通じて自律型仮想エージェントの分野を前進させる可能性を示している。

関連論文リスト

InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文参考訳（メタデータ） (2025-05-16T05:43:27Z)
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving [54.365702251769456]
我々は、駆動シーケンス当たり平均8.4エージェントのデータセットを提示する。自律運転データセットの中で最大のエージェントと視点を提供するだけでなく、WHALESはエージェントの振る舞いを記録する。エージェントスケジューリングタスクにおいて,エゴエージェントが複数の候補エージェントの1つを選択して協調する実験を行う。
論文参考訳（メタデータ） (2024-11-20T14:12:34Z)
AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文参考訳（メタデータ） (2024-08-05T06:31:39Z)
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文参考訳（メタデータ） (2024-07-09T17:33:24Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
Multi-Agent Collaboration via Cross-Team Orchestration [31.506350304184526]
大規模言語モデル(LLM)は、特に組織化された自律エージェントを通じて、様々なドメインに大きな影響を与えている。これはスケーラブルなマルチチームフレームワークで、オーケストレーションされたチームはさまざまなタスク指向のソリューションを共同で提案できる。実験では、最先端のベースラインと比較して、ソフトウェアの品質が顕著に向上している。
論文参考訳（メタデータ） (2024-06-13T10:18:36Z)
Scaling Large-Language-Model-based Multi-Agent Collaboration [75.5241464256688]
大規模言語モデルによるエージェントのパイオニア化は、マルチエージェントコラボレーションの設計パターンを暗示している。神経スケーリング法則に触発された本研究では,マルチエージェント協調におけるエージェントの増加に類似の原理が適用されるかを検討する。
論文参考訳（メタデータ） (2024-06-11T11:02:04Z)
Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-25T14:56:32Z)
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文参考訳（メタデータ） (2024-02-12T07:29:22Z)
Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird's Eye View Segmentation for Connected and Autonomous Driving [49.03947018718156]
協調的な知覚の訓練と推論の段階で利用される統合されたドメイン一般化フレームワークを提案する。また、システム内ドメインアライメント機構を導入し、コネクテッドおよび自律走行車間のドメインの差を減らし、潜在的に排除する。
論文参考訳（メタデータ） (2023-11-28T12:52:49Z)
MACP: Efficient Model Adaptation for Cooperative Perception [23.308578463976804]
協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。提案手法は,協調観測を効果的に活用し,他の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2023-10-25T14:24:42Z)
BM2CP: Efficient Collaborative Perception with LiDAR-Camera Modalities [5.034692611033509]
我々は,LiDARとカメラを用いた協調認識パラダイムBM2CPを提案し,効率的なマルチモーダル認識を実現する。センサーの1つ、同じまたは異なるタイプのエージェントが欠落している場合に対処することができる。提案手法は,シミュレーションおよび実世界の自律走行シナリオにおいて,50倍の通信量で最先端の手法より優れる。
論文参考訳（メタデータ） (2023-10-23T08:45:12Z)
MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文参考訳（メタデータ） (2021-09-02T12:43:35Z)
SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。 SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文参考訳（メタデータ） (2020-10-19T18:26:10Z)
Ubiquitous Distributed Deep Reinforcement Learning at the Edge: Analyzing Byzantine Agents in Discrete Action Spaces [0.06554326244334865]
本稿では,ビザンチンや誤作動剤の存在下で発生する多エージェント分散深層強化学習の課題について論じる。個別行動の誤りが協調学習活動にどのように影響するかを示す。分散マルチエージェントトレーニングにおけるアクター・クリティカル(A2C)を活かしたAtariテストベッドを用いたシミュレーション環境で実験を行った。
論文参考訳（メタデータ） (2020-08-18T11:25:39Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。