論文の概要: ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario
- arxiv url: http://arxiv.org/abs/2501.10132v1
- Date: Fri, 17 Jan 2025 11:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:56.872604
- Title: ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario
- Title(参考訳): ComplexFuncBench: 長期シナリオ下でのマルチステップおよび制約付き関数呼び出しの探索
- Authors: Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang,
- Abstract要約: 実世界の5つのシナリオにまたがる複雑な関数呼び出しのベンチマークである ComplexFuncBench を紹介する。
既存のベンチマークと比較すると、complexFuncBenchはマルチステップおよび制約付き関数呼び出しを含んでいる。
複雑な関数呼び出しタスクを定量的に評価するための自動フレームワークである ComplexEval を提案する。
- 参考スコア(独自算出の注目度): 17.494787282066866
- License:
- Abstract: Enhancing large language models (LLMs) with real-time APIs can help generate more accurate and up-to-date responses. However, evaluating the function calling abilities of LLMs in real-world scenarios remains under-explored due to the complexity of data collection and evaluation. In this work, we introduce ComplexFuncBench, a benchmark for complex function calling across five real-world scenarios. Compared to existing benchmarks, ComplexFuncBench encompasses multi-step and constrained function calling, which requires long-parameter filing, parameter value reasoning, and 128k long context. Additionally, we propose an automatic framework, ComplexEval, for quantitatively evaluating complex function calling tasks. Through comprehensive experiments, we demonstrate the deficiencies of state-of-the-art LLMs in function calling and suggest future directions for optimizing these capabilities. The data and code are available at \url{https://github.com/THUDM/ComplexFuncBench}.
- Abstract(参考訳): 大規模言語モデル(LLM)をリアルタイムAPIで拡張することは、より正確で最新のレスポンスを生成するのに役立つ。
しかし,データ収集と評価の複雑さのため,実世界のシナリオにおけるLLMの呼び出し機能の評価は未検討のままである。
本研究では,5つの実世界のシナリオにまたがる複雑な関数呼び出しのベンチマークであるComplexFuncBenchを紹介する。
既存のベンチマークと比較すると、complexFuncBenchは多段階および制約付き関数呼び出しを含み、長パラメータのファイリング、パラメータ値の推論、128kのコンテキストを必要とする。
さらに,複雑な関数呼び出しタスクを定量的に評価するための自動フレームワークである ComplexEval を提案する。
総合的な実験を通じて,機能呼び出しにおける最先端LLMの欠陥を実証し,これらの機能を最適化するための今後の方向性を提案する。
データとコードは \url{https://github.com/THUDM/ComplexFuncBench} で公開されている。
関連論文リスト
- Facilitating Multi-turn Function Calling for LLMs via Compositional Instruction Tuning [36.17708271049462]
大規模言語モデル(LLM)は多様なタスクを実行する上で大きな可能性を秘めている。
本稿では,LLMがマルチターン関数呼び出しを行う上で,見過ごされる必要性に対処する。
BUTTONはボトムアップ命令構築とトップダウン軌道生成による合成合成命令チューニングデータを生成する。
論文 参考訳(メタデータ) (2024-10-16T18:40:26Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents [7.166156709980112]
我々は、APIベースのエージェントの包括的な評価のための大規模なベンチマークであるtextscShortcutsBenchを紹介する。
textscShortcutsBenchには、Apple Inc.のオペレーティングシステムから多くの真のAPIが含まれている。
評価の結果,APIの選択やパラメータの充足,システムやユーザからの必要な情報要求など,複雑なクエリを扱う上での重大な制限が明らかになった。
論文 参考訳(メタデータ) (2024-06-28T08:45:02Z) - Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks [35.97890508648945]
我々はApache 2.0ライセンスの下で-20B-FUNCTIONCALLINGモデルを紹介します。
モデルは7つの基本的なタスクに対してマルチタスクトレーニングアプローチを使用してトレーニングされる。
20B-FUNCTIONCALLINGは、7つの異なる評価データセットにおいて、複数のタスクに対してより一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:47:26Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - An LLM-Tool Compiler for Fused Parallel Function Calling [1.990293258268139]
LLM(Large Language Models)における最先端のシーケンシャル推論は、会話タスク以外のCopilotの機能を複雑な関数呼び出しに拡張した。
LLM-Toolコンパイラは、実行時に単一の関数の下で同様のツール操作を融合し、LLMに統一的なタスクとして提示する。
大規模なCopilotプラットフォーム上でベンチマークされたLLM-Toolコンパイラは、既存のメソッドよりも最大4倍の並列呼び出しを実現し、トークンコストとレイテンシを最大40%と12%削減する。
論文 参考訳(メタデータ) (2024-05-07T18:55:50Z) - An LLM Compiler for Parallel Function Calling [68.04566807806071]
我々は,複数の関数呼び出しを効率的にオーケストレーションするために並列に関数を実行するLLMCompilerを紹介する。
ReActと比較して、一貫したレイテンシの高速化が3.7倍、コストの削減が6.7倍、精度が9%向上している。
論文 参考訳(メタデータ) (2023-12-07T18:32:04Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。