論文の概要: Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents
- arxiv url: http://arxiv.org/abs/2502.20073v3
- Date: Thu, 25 Sep 2025 06:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 18:43:23.222422
- Title: Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents
- Title(参考訳): Collab-Overcooked:コラボレーションエージェントとしての大規模言語モデルのベンチマークと評価
- Authors: Haochen Sun, Shuwen Zhang, Lujie Niu, Lei Ren, Hao Xu, Hao Fu, Fangkun Zhao, Caixia Yuan, Xiaojie Wang,
- Abstract要約: LLM(Large Language Models)ベースのエージェントシステムは、従来のNLPタスクを超えて、現実世界のアプリケーションにおいて大きな進歩を遂げてきた。
本稿では,インタラクティブ環境において,より適用性が高く,課題の多いOvercooked-AIゲーム上に構築された新しいベンチマークであるCollab-Overcookedを提案する。
- 参考スコア(独自算出の注目度): 21.328894420020443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) based agent systems have made great strides in real-world applications beyond traditional NLP tasks. This paper proposes a new LLM-based Multi-Agent System (LLM-MAS) benchmark, Collab-Overcooked, built on the popular Overcooked-AI game with more applicable and challenging tasks in interactive environments. Collab-Overcooked extends existing benchmarks in two novel ways. First, it provides a multi-agent framework supporting diverse tasks and objectives and encourages collaboration through natural language communication. Second, it introduces a spectrum of process-oriented evaluation metrics to assess the fine-grained collaboration capabilities of different LLM agents, a dimension often overlooked in prior work. We conduct extensive experiments with 13 popular LLMs and show that, while the LLMs exhibit a strong ability in goal interpretation, there are significant shortcomings in active collaboration and continuous adaptation, which are critical for efficiently fulfilling complex tasks. Notably, we highlight the strengths and weaknesses of LLM-MAS and provide insights for improving and evaluating LLM-MAS on a unified and open-source benchmark. The environments, 30 open-ended tasks, and the evaluation package are publicly available at https://github.com/YusaeMeow/Collab-Overcooked.
- Abstract(参考訳): LLM(Large Language Models)ベースのエージェントシステムは、従来のNLPタスクを超えて、現実世界のアプリケーションにおいて大きな進歩を遂げてきた。
本稿では,LLMベースのマルチエージェントシステム(LLM-MAS)ベンチマークであるCollab-Overcookedを提案する。
Collab-Overcookedは既存のベンチマークを2つの新しい方法で拡張している。
まず、さまざまなタスクや目的をサポートするマルチエージェントフレームワークを提供し、自然言語通信によるコラボレーションを促進する。
第2に、異なるLLMエージェントのきめ細かい協調能力を評価するために、プロセス指向評価メトリクスのスペクトルを導入する。
我々は13のLLMで広範な実験を行い、LLMはゴール解釈において強力な能力を示す一方で、活発な協調と継続的な適応には重大な欠点があり、複雑なタスクを効率的に遂行するのに重要であることを示した。
特に, LLM-MASの長所と短所を強調し, LLM-MASを統一的かつオープンソースなベンチマークで改善・評価するための洞察を提供する。
環境、30のオープンなタスク、評価パッケージはhttps://github.com/YusaeMeow/Collab-Overcooked.comで公開されている。
関連論文リスト
- Teamwork makes the dream work: LLMs-Based Agents for GitHub README.MD Summarization [7.330697128881243]
様々な大規模言語モデル(LLM)のシナジーを増幅するための新しいアプローチとしてメタジェンテを提案する。
メタジェンテ(Metagente)は、特殊エージェント間の評価、フィードバック、協調を通じてシステムを自己最適化する一連のLLMに基づくマルチエージェントフレームワークである。
最も関連するベンチマークであるGitSumと比較して、パフォーマンスの向上は27.63%から60.43%である。
論文 参考訳(メタデータ) (2025-03-13T20:42:39Z) - MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning [26.736078756799635]
新しいポストトレーニングパラダイムMAPoRL(強化学習を用いた協調LLMのためのマルチエージェントポストトレーニング)を導入する。
MAPoRLでは、複数のLLMが独立して独自の応答を生成し、最終回答を協調的に改善するためのマルチターンディスカッションを行う。
MAPoRL検証器は、回答の正しさを検証するスコアを割り当てることで、回答と議論の両方を評価する。
スコアはコトレーニング報酬として機能し、マルチエージェントRLによって最大化される。
論文 参考訳(メタデータ) (2025-02-25T18:33:48Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - When One LLM Drools, Multi-LLM Collaboration Rules [98.71562711695991]
私たちは、データ、スキル、人々の幅広い多様性を表現するために、マルチLLMコラボレーションを議論しています。
既存のマルチLLM協調手法を,アクセスレベルと情報交換レベルに基づいて階層構造に整理する。
コンポジションインテリジェンスとコラボレーティブAI開発への不可欠な道として,マルチLLMコラボレーションを構想する。
論文 参考訳(メタデータ) (2025-02-06T21:13:44Z) - LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions [8.55917897789612]
我々は、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。
また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。
論文 参考訳(メタデータ) (2024-05-17T22:10:23Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。