論文の概要: ACEBench: Who Wins the Match Point in Tool Learning?
- arxiv url: http://arxiv.org/abs/2501.12851v2
- Date: Thu, 30 Jan 2025 14:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 14:32:47.213372
- Title: ACEBench: Who Wins the Match Point in Tool Learning?
- Title(参考訳): ACEBench: ツール学習のマッチポイントは誰だ?
- Authors: Chen Chen, Xinlong Hao, Weiwen Liu, Xu Huang, Xingshan Zeng, Shuai Yu, Dexun Li, Shuai Wang, Weinan Gan, Yuefeng Huang, Wulong Liu, Xinzhi Wang, Defu Lian, Baoqun Yin, Yasheng Wang, Wu Liu,
- Abstract要約: 大規模言語モデル(LLM)は意思決定や推論において大きな可能性を証明している。
LLM関数呼び出し機能を評価するための既存の評価システムにはいくつかの制限がある。
ACEBench という総合評価システムを提案する。
- 参考スコア(独自算出の注目度): 68.54159348899891
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have demonstrated significant potential in decision-making and reasoning, especially when combined with various tools to effectively solve complex problems. However, existing evaluation systems for assessing LLM function calling capabilities have several limitations: (1) limited evaluation scenarios, lacking assessments in real multi-turn dialogue contexts; (2) narrow evaluation dimensions, lacking detailed assessments for fine-grained function calls; (3) relying on LLMs or real API executions for result evaluation, which introduces significant overhead. To address these issues, we propose a comprehensive evaluation system named ACEBench. This system is meticulously designed to encompass a wide spectrum of function calling scenarios. Moreover, it categorizes these scenarios into three primary types according to the evaluation methodology: Normal, Special, and Agent. Normal evaluates function calls in basic scenarios; Special evaluates function calls in scenarios with vague or incomplete instructions; Agent introduces multi-agent interactions to simulate function calling evaluation in real-world multi-turn interactions. We conducted extensive experiments on ACEBench, analyzing various LLMs in-depth and performing a more granular analysis of error causes across different data types.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に複雑な問題を効果的に解決するために様々なツールと組み合わせた場合、意思決定や推論において大きな可能性を証明している。
しかし,LLM 関数呼び出し機能を評価するための既存の評価システムは,(1) 限られた評価シナリオ,実際のマルチターン対話環境における評価の欠如,(2) 細粒度関数呼び出しに対する詳細な評価の欠如,(3) 結果評価に LLM や実際の API の実行に依存するなど,いくつかの制限がある。
これらの課題に対処するため,ACEBench という総合評価システムを提案する。
このシステムは、幅広い関数呼び出しシナリオを含むよう細心に設計されている。
さらに,これらのシナリオを,正常,特殊,エージェントの3つの評価手法に分類する。
基本シナリオにおける関数呼び出しの評価; 曖昧または不完全な命令を持つシナリオにおける関数呼び出しを特別に評価; エージェントは実世界のマルチターンインタラクションにおける関数呼び出し評価をシミュレートするマルチエージェントインタラクションを導入する。
我々はACEBenchに関する広範な実験を行い、様々なLSMを詳細に分析し、異なるデータタイプにわたるエラー原因をより詳細に分析した。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios [31.43638572775755]
HammerBenchは、大規模な言語モデル(LLM)の関数呼び出し能力を人間とLLMの相互作用においてより効果的に評価するために設計されたベンチマークフレームワークである。
我々は,不完全な指示,多様な質問・回答の軌跡,意図/議論のシフト,代名詞による外部個人情報の利用など,モバイルデバイス上でのさまざまな現実的なユーザシナリオをモデル化する。
会話を関数呼び出しスナップショットに分解し、各ターンのきめ細かい評価を可能にする。
論文 参考訳(メタデータ) (2024-12-21T07:33:55Z) - FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.532239489610056]
FB-Benchは、大規模言語モデルの実際の使用シナリオにおける人間のフィードバックに対する応答性を評価するために設計されたベンチマークである。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文 参考訳(メタデータ) (2024-10-12T07:40:01Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - SysBench: Can Large Language Models Follow System Messages? [30.701602680394686]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがって実装されており、これらのモデルを特定のシナリオにカスタマイズすることがますます重要になっている。
AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、LLMがシステムメッセージにどの程度うまく従うかを評価するためのベンチマークは、特に欠落している。
我々は,既存のLLMの3つの制限の観点から,システムメッセージ追従能力を体系的に解析するベンチマークであるSysBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-20T15:33:16Z) - ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities [30.030101957186595]
ToolSandboxは、大規模言語モデル(LLM)の評価フレームワークである。
ToolSandboxには、ステートフルなツール実行、ツール間の暗黙のステート依存性、オン・ポリケーションの会話評価をサポートする組み込みユーザシミュレータが含まれている。
オープンソースとプロプライエタリなモデルには大きなパフォーマンスギャップがあることを示し、ToolSandboxで定義された状態依存、正準化、不十分な情報といった複雑なタスクは、最も有能なSOTA LLMでさえも挑戦している。
論文 参考訳(メタデータ) (2024-08-08T05:45:42Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - Can Tool-augmented Large Language Models be Aware of Incomplete Conditions? [33.74511128798095]
本研究では,大規模言語モデルが不完全条件を識別し,いつツールの使用を控えるかを適切に判断できるかどうかを検討する。
実験の結果,LSMは特定のツールを利用するために必要な情報の欠如を特定するのに苦慮していることがわかった。
本研究は,人間とLLMの相互作用における共通シナリオに対処することで,信頼性の高いLLMの進展に寄与することができる。
論文 参考訳(メタデータ) (2024-06-18T06:28:06Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。