論文の概要: Towards Reliable Benchmarking: A Contamination Free, Controllable Evaluation Framework for Multi-step LLM Function Calling
- arxiv url: http://arxiv.org/abs/2509.26553v1
- Date: Tue, 30 Sep 2025 17:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.227485
- Title: Towards Reliable Benchmarking: A Contamination Free, Controllable Evaluation Framework for Multi-step LLM Function Calling
- Title(参考訳): 信頼性ベンチマークに向けて:マルチステップLCM関数呼び出しのための汚染のない制御可能な評価フレームワーク
- Authors: Seiji Maekawa, Jackson Hassell, Pouya Pezeshkpour, Tom Mitchell, Estevam Hruschka,
- Abstract要約: ツール拡張言語モデル(TaLM)を合成多段階タスクによって評価する,汚染のないフレームワークであるFuncBenchGenを提案する。
推論最適化モデルはGPT-5で汎用モデルより一貫して優れており、他のモデルよりも大幅に優れていることを示す。
強いモデルはしばしば構文的に有効な関数呼び出しを行うが、ステップ間で誤ったあるいは古い引数値を伝搬し、マルチターンツールの使用においてLLMによる不安定な状態追跡を明らかにする。
- 参考スコア(独自算出の注目度): 16.396204092947496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models gain access to external tools via structured function calls, they become increasingly more capable of solving complex, multi-step tasks. However, existing benchmarks for tool-augmented language models (TaLMs) provide insufficient control over factors such as the number of functions accessible, task complexity, and input size, and remain vulnerable to data contamination. We present FuncBenchGen, a unified, contamination-free framework that evaluates TaLMs by generating synthetic multi-step tool-use tasks. The key idea is to cast tool use as traversal over a hidden function-dependency DAG where nodes are function calls and an edge between nodes represents one function consuming the output of another. Given a set of external function schemas, initial variable values, and a target variable, models must compose the correct call sequence to compute the target variable. FuncBenchGen allows users to precisely control task difficulty (e.g., graph size, dependency depth, and distractor functions) while avoiding data leakage. We apply our FuncBenchGen framework to evaluate seven LLMs on tool use tasks of varying difficulty. Reasoning-optimized models consistently outperform general-purpose models with GPT-5 significantly outperforming other models. Performance declines sharply as dependency depth increases. Furthermore, connected irrelevant functions prove especially difficult to handle. We find that strong models often make syntactically valid function calls but propagate incorrect or stale argument values across steps, revealing brittle state tracking by LLMs in multi-turn tool use. Motivated by this observation, we introduce a simple mitigation strategy that explicitly restates prior variable values to the agent at each step. Surprisingly, this lightweight change yields substantial gains across models. e.g., yielding a success rate improvement from 62.5% to 81.3% for GPT-5.
- Abstract(参考訳): 言語モデルが構造化関数呼び出しを通じて外部ツールにアクセスできるようになると、複雑なマルチステップタスクを解決する能力がますます高まっていく。
しかし、ツール拡張言語モデル(TaLM)の既存のベンチマークでは、アクセス可能な関数の数、タスクの複雑さ、入力サイズなどの要因に対する制御が不十分であり、データ汚染に弱いままである。
合成多段階ツール利用タスクを生成することにより,TaLMの評価を行う,統合された汚染のないフレームワークであるFuncBenchGenを提案する。
キーとなるアイデアは、ノードが関数呼び出しであり、ノード間のエッジが別の関数の出力を消費する、隠れ関数依存性DAG上のトラバースとしてツールをキャストすることである。
外部関数スキーマ、初期変数値、ターゲット変数のセットが与えられた場合、モデルはターゲット変数を計算するために正しい呼び出しシーケンスを構成する必要がある。
FuncBenchGenは、データ漏洩を避けながら、タスクの難しさ(例えば、グラフサイズ、依存性の深さ、イントラクタ関数)を正確に制御できる。
我々はFuncBenchGenフレームワークをツール利用タスクにおける7つのLLMの評価に応用した。
推論最適化モデルは、GPT-5で汎用モデルより一貫して優れており、他のモデルよりも大幅に優れていた。
依存性の深さが増加するにつれて、パフォーマンスは急激に低下する。
さらに、連結無関係関数は特に扱いが難しい。
強いモデルはしばしば構文的に有効な関数呼び出しを行うが、ステップ間で誤ったあるいは古い引数値を伝搬し、マルチターンツールの使用においてLLMによる不安定な状態追跡を明らかにする。
この観測により,各ステップにおいて,先行変数値をエージェントに明示的に再配置する単純な緩和戦略が導入された。
驚くべきことに、この軽量な変更はモデル間でかなりの利益をもたらします。
GPT-5では62.5%から81.3%に改善された。
関連論文リスト
- FunReason: Enhancing Large Language Models' Function Calling via Self-Refinement Multiscale Loss and Automated Data Refinement [23.301601376960104]
大規模言語モデルの関数呼び出し機能を強化するフレームワークであるFunReasonを紹介する。
FunReasonは、解析可能性、推論コヒーレンス、関数呼び出しの精度に焦点を当てた高品質なトレーニング例を生成する。
FunReasonは、微調整中に破滅的な忘れを効果的に軽減しながら、GPT-4oに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-26T16:38:06Z) - Magnet: Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation [85.68881632498909]
本稿では,大規模言語モデルエージェントのための高品質なトレーニングトラジェクトリを合成するための原則的フレームワークを提案する。
このフレームワークは、関数シグネチャパスからクエリのシーケンスと実行可能な関数呼び出しへの自動的で反復的な変換に基づいている。
実験の結果,14BモデルであるMagnetic-14B-mDPOでは,BFCL-v3では68.01,ToolQueryでは73.30が得られた。
論文 参考訳(メタデータ) (2025-03-10T20:13:07Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks [35.97890508648945]
我々はApache 2.0ライセンスの下で-20B-FUNCTIONCALLINGモデルを紹介します。
モデルは7つの基本的なタスクに対してマルチタスクトレーニングアプローチを使用してトレーニングされる。
20B-FUNCTIONCALLINGは、7つの異なる評価データセットにおいて、複数のタスクに対してより一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:47:26Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。