論文の概要: MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
- arxiv url: http://arxiv.org/abs/2407.18961v2
- Date: Tue, 30 Jul 2024 09:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 19:27:58.379455
- Title: MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
- Title(参考訳): MMAU: さまざまなドメインにまたがるエージェント能力の全体的ベンチマーク
- Authors: Guoli Yin, Haoping Bai, Shuang Ma, Feng Nan, Yanchao Sun, Zhaoyang Xu, Shen Ma, Jiarui Lu, Xiang Kong, Aonan Zhang, Dian Ang Yap, Yizhe zhang, Karsten Ahnert, Vik Kamath, Mathias Berglund, Dominic Walsh, Tobias Gindele, Juergen Wiest, Zhengfeng Lai, Xiaoming Wang, Jiulong Shan, Meng Cao, Ruoming Pang, Zirui Wang,
- Abstract要約: 大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 54.117238759317004
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in large language models (LLMs) have increased the demand for comprehensive benchmarks to evaluate their capabilities as human-like agents. Existing benchmarks, while useful, often focus on specific application scenarios, emphasizing task completion but failing to dissect the underlying skills that drive these outcomes. This lack of granularity makes it difficult to deeply discern where failures stem from. Additionally, setting up these environments requires considerable effort, and issues of unreliability and reproducibility sometimes arise, especially in interactive tasks. To address these limitations, we introduce the Massive Multitask Agent Understanding (MMAU) benchmark, featuring comprehensive offline tasks that eliminate the need for complex environment setups. It evaluates models across five domains, including Tool-use, Directed Acyclic Graph (DAG) QA, Data Science and Machine Learning coding, Contest-level programming and Mathematics, and covers five essential capabilities: Understanding, Reasoning, Planning, Problem-solving, and Self-correction. With a total of 20 meticulously designed tasks encompassing over 3K distinct prompts, MMAU provides a comprehensive framework for evaluating the strengths and limitations of LLM agents. By testing 18 representative models on MMAU, we provide deep and insightful analyses. Ultimately, MMAU not only sheds light on the capabilities and limitations of LLM agents but also enhances the interpretability of their performance. Datasets and evaluation scripts of MMAU are released at https://github.com/apple/axlearn/tree/main/docs/research/mmau.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、人間のようなエージェントとして機能を評価するための包括的なベンチマークの必要性が高まっている。
既存のベンチマークは有用だが、しばしば特定のアプリケーションシナリオに焦点を当て、タスクの完了を強調するが、これらの成果を導く基盤となるスキルを識別することができない。
この粒度の欠如は、障害がどこから来たのかを深く見分けるのを難しくする。
さらに、これらの環境のセットアップにはかなりの努力が必要であり、特に対話的なタスクにおいて、信頼性の欠如や再現性の問題が発生することがある。
これらの制約に対処するため、複雑な環境設定を不要にする包括的なオフラインタスクを備えたMMAU(Massive Multitask Agent Understanding)ベンチマークを導入する。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習のコーディング、コンテストレベルのプログラミングと数学を含む5つの領域にわたるモデルを評価し、理解、推論、計画、問題解決、自己補正の5つの重要な機能をカバーする。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
MMAU上で18の代表的なモデルをテストすることで、深い洞察に富んだ分析を行う。
最終的に、MMAUはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性を高める。
MMAUのデータセットと評価スクリプトはhttps://github.com/apple/axlearn/tree/main/docs/research/mmauで公開されている。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。
従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。
結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文 参考訳(メタデータ) (2024-04-29T15:02:14Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Analysis of the Reasoning with Redundant Information Provided Ability of
Large Language Models [0.0]
大きな言語モデル(LLM)は、さまざまな自然言語処理タスクにまたがる印象的な機能を示している。
このギャップに対処するため,Reasoning with Redundant Information Provided (RRIP) と呼ばれる新しいQAタスクが導入された。
本研究は,LlaMA2-13B-chatとGPT-3.5 (generative pre-trained transformer 3.5)の2つのLLMを評価し,従来のQAタスクとRRIPタスクとの対比を行った。
論文 参考訳(メタデータ) (2023-10-06T06:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。