論文の概要: LongFuncEval: Measuring the effectiveness of long context models for function calling
- arxiv url: http://arxiv.org/abs/2505.10570v1
- Date: Wed, 30 Apr 2025 15:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-25 10:52:49.025544
- Title: LongFuncEval: Measuring the effectiveness of long context models for function calling
- Title(参考訳): LongFuncEval: 関数呼び出しのためのロングコンテキストモデルの有効性の測定
- Authors: Kiran Kate, Tejaswini Pedapati, Kinjal Basu, Yara Rizk, Vijil Chenthamarakshan, Subhajit Chaudhury, Mayank Agarwal, Ibrahim Abdelaziz,
- Abstract要約: ツールコール設定において,大規模言語モデルの長い文脈理解能力を包括的に研究するための最初の試みを行う。
ツール数の増加に伴い,パフォーマンス低下が7%から85%,ツール応答が長くなるにつれて回答検索が7%から91%,マルチターン会話が長くなるにつれて13%と40%の低下が見られた。
- 参考スコア(独自算出の注目度): 22.799185431614656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple recent studies have documented large language models' (LLMs) performance on calling external tools/functions. Others focused on LLMs' abilities to handle longer context lengths. At the intersection of these areas lies another interesting problem: LLMs' abilities to accurately perform function calls in long context settings. Particularly, when calling tools, LLMs are encumbered by three predominant challenges: (1) a large catalog of tools, (2) long responses from the tool APIs, and (3) long multi-turn conversations. These challenges are particularly relevant to enterprise applications of LLMs which engage in multi-turn conversations with users to complete complex tasks that require a large catalog of complex tools. The literature contains multiple investigations of long context challenges such as lost in the middle or needle in the haystack for natural language tasks. In this paper, we make the first attempt to comprehensively study the long context understanding capabilities of these models in the tool calling setup. We modify existing benchmarks for challenge 1 and 3, and create a new evaluation set for challenge 2 to enable this analysis. We gradually increase the input context length and also vary the position of the answer in the input. When evaluated with several long context models, we observe a performance drop of 7% to 85% as the number of tools increases, a 7% to 91% degradation in answer retrieval as the tool responses length increases, and 13% and 40% degradation for as multi-turn conversations get longer. Our study shows that LLMs still struggle with long context in tool calling settings, motivating future research to drive further LLM improvements.
- Abstract(参考訳): 複数の最近の研究で、外部ツールや関数を呼び出す上での大規模言語モデル(LLM)のパフォーマンスが文書化されている。
他の人々は、長いコンテキスト長を扱うLLMの能力に焦点を当てた。
長いコンテキスト設定で関数呼び出しを正確に実行するLLMの能力。
特に、ツールを呼び出す際には、(1)ツールの大規模なカタログ、(2)ツールAPIからの長いレスポンス、(3)長いマルチターン会話の3つの主要な課題に悩まされる。
これらの課題は、複雑なツールの大規模なカタログを必要とする複雑なタスクを完了するために、ユーザとのマルチターン会話を行うLLMのエンタープライズアプリケーションに特に関係している。
この文献には、自然言語処理のための干し草スタックで失った中や針など、長い文脈の課題に関する複数の調査が含まれている。
本稿では,ツールコール設定において,これらのモデルの長期文脈理解能力を包括的に研究するための最初の試みを行う。
既存のベンチマークを1と3に修正し、新しい評価セットを作成して、この分析を可能にする。
我々は、入力コンテキストの長さを徐々に増加させ、また、入力における応答の位置も変化させる。
いくつかの長期的文脈モデルを用いて評価すると,ツール数の増加に伴い7%から85%のパフォーマンス低下,ツール応答長の増加に伴って回答検索が7%から91%,マルチターン会話が長くなるにつれて13%から40%の低下が見られた。
我々の研究は、LLMがツールコール設定における長いコンテキストに苦しむことを示し、LLMをさらに改善するための将来の研究を動機付けている。
関連論文リスト
- ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。
現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。
本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文 参考訳(メタデータ) (2024-10-04T08:29:12Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in Information-Dense Context? [43.98513461616172]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。