論文の概要: Towards a Realistic Long-Term Benchmark for Open-Web Research Agents
- arxiv url: http://arxiv.org/abs/2409.14913v1
- Date: Wed, 25 Sep 2024 08:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 15:26:12.910860
- Title: Towards a Realistic Long-Term Benchmark for Open-Web Research Agents
- Title(参考訳): オープンWeb研究エージェントのリアルタイム長期ベンチマークに向けて
- Authors: Peter Mühlbacher, Nikos I. Bosse, Lawrence Phillips,
- Abstract要約: 我々は,金融・コンサルティングにおいて日常的に行われる8つの現実的・乱雑なタスクを評価する。
これは既存のベンチマークのギャップを、実際の人間による経済的価値の業務を構成していない'ピザを次のアドレスに注文する'といったタスクで埋める。
- 参考スコア(独自算出の注目度): 0.21847754147782888
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present initial results of a forthcoming benchmark for evaluating LLM agents on white-collar tasks of economic value. We evaluate eight realistic and ``messy'' tasks that are routine in finance and consulting, drawn from real-world cases from our customers. We lay the groundwork for an LLM agent evaluation suite where good performance directly corresponds to a large economic and societal impact. This fills a gap in existing benchmarks with tasks like ``order a pizza to the following address'' that do not constitute real-human work of economic value. Our evaluations assign credit to agents for partially solving tasks. By doing that, this initial evaluation, and the forthcoming benchmark, allow us to more accurately extrapolate performance of LLM-based agents on economically valuable tasks. We built and tested several architectures with GPT-4o, Claude-3.5 Sonnet, Llama 3.1 (405b), and GPT-4o-mini, ensuring that failure to solve a task was due to failures of reasoning and planning, rather than due to common failures like e.g. the inability to parse a website. On average, LLM agents powered by Claude-3.5 Sonnet substantially outperformed agents using GPT-4o, with agents based on Llama 3.1 (405b) and GPT-4o-mini lagging noticeably behind. Across LLMs, a ReAct architecture with the ability to delegate subtasks to subagents performed best. In addition to quantitative evaluations, we qualitatively assessed the performance of the LLM agents by inspecting their traces and reflecting on their observations.
- Abstract(参考訳): 経済価値の白カラータスクに対するLCMエージェント評価のためのベンチマークを近く実施する。
顧客から現実のケースから引き出された金融やコンサルティングにおいて日常的に行われる8つの現実的かつ「テーマ」なタスクを評価します。
我々は,LLMエージェント評価スイートの基礎を置き,優れた性能が経済的・社会的影響に直接対応するようにした。
これにより、既存のベンチマークのギャップを‘次のアドレスにピザを注文’するようなタスクで埋めることができます。
我々の評価は、部分的に解決するタスクに対して、エージェントにクレジットを割り当てる。
これにより、この初期評価と今後のベンチマークにより、経済的に価値のあるタスクにおいて、LLMベースのエージェントのパフォーマンスをより正確に推定することができる。
我々は、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniでいくつかのアーキテクチャを構築し、テストした。
平均して、Claude-3.5 Sonnetを動力とするLLM剤は、Llama 3.1 (405b) と GPT-4o-mini をベースとした GPT-4o 剤で大幅に性能が向上した。
LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
定量的評価に加えて, LLM エージェントの性能を定量的に評価し, その痕跡を検査し, 観察結果に反映した。
関連論文リスト
- Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents [46.81304373693033]
大規模言語モデル(LLM)は人間とコンピュータの相互作用においてホットスポットとなっている。
Mobile-Benchは、LLMベースのモバイルエージェントの能力を評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-07-01T06:10:01Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions [77.83767077859835]
LLM エージェントによる評価プロセス全体を自動化した LLM の自動アリーナを提案する。
最新のLLM17実験において,オートアリーナは人間の嗜好と最も高い相関関係を示した。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Latent State Estimation Helps UI Agents to Reason [2.9798528859300855]
現実の環境で活動するエージェントの一般的な問題は、環境の行動に対する応答が非決定論的であり、ノイズを通して観察されることである。
これにより、環境状態とタスクの完了に向けた進捗が引き起こされる。
遅延状態について明示的に推定および推論を行うLLMエージェントは、実行しないエージェントの最大1.6倍のタスクを完了可能であることを示す。
論文 参考訳(メタデータ) (2024-05-17T23:27:33Z) - RepEval: Effective Text Evaluation with LLM Representation [54.07909112633993]
評価のためにLLM表現の投影を利用した最初の計量であるRepEvalを紹介する。
RepEvalはトレーニングに最小限のサンプルペアを必要とし、簡単なプロンプト修正によって、さまざまなタスクに簡単に移行できる。
3つのタスクから得られた10個のデータセットの結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Understanding the Weakness of Large Language Model Agents within a
Complex Android Environment [21.278266207772756]
大規模言語モデル(LLM)は、ブラウザやゲームのようなドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。
LLMはオペレーティングシステムのような汎用ソフトウェアシステムに適用する際の3つの主要な課題に直面している。
これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。
論文 参考訳(メタデータ) (2024-02-09T18:19:25Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。