論文の概要: ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling
- arxiv url: http://arxiv.org/abs/2510.14703v1
- Date: Thu, 16 Oct 2025 14:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.887881
- Title: ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling
- Title(参考訳): ToolPRM:関数呼び出しのための構造化出力の細粒度推論スケーリング
- Authors: Jianghao Lin, Yuanyuan Shi, Xin Peng, Renjie Ding, Hairui Wang, Yuxuan Peng, Bizhe Bai, Weixi Song, Fengshuo Bai, Huacan Chai, Weinan Zhang, Fei Huang, Ying Wen,
- Abstract要約: 本稿では,細粒度ビームサーチとプロセス報酬モデルであるToolPRMを組み合わせた推論スケーリングフレームワークを提案する。
ToolPRMをトレーニングするために、我々は、最初のきめ細かい呼び出しプロセス監視データセットを構築した。
実験により、ToolPRMは予測精度で粗い粒度と結果の報酬モデルを上回ることが示された。
- 参考スコア(独自算出の注目度): 43.92559842380089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly demonstrating strong capabilities as autonomous agents, with function calling serving as a core mechanism for interaction with the environment. Meanwhile, inference scaling has become a cutting-edge technique to enhance LLM performance by allocating more computational resources during the inference process. However, current research on inference scaling primarily focuses on unstructured output generation tasks, leaving its application in structured outputs, like function calling, largely underexplored. To bridge this gap, we propose an inference scaling framework that combines fine-grained beam search with a process reward model, ToolPRM, which scores the internal steps of each single function call. To train ToolPRM, we construct the first fine-grained intra-call process supervision dataset, automatically annotated with function-masking techniques to provide step-level rewards for structured tool-use reasoning. Extensive experiments demonstrate that ToolPRM beats the coarse-grained and outcome reward models in terms of predictive accuracy, indicating its stronger capability in supervising the function calling inference process. Inference scaling technique equipped with ToolPRM also significantly improves the backbone model performance across various function calling tasks and benchmarks. More importantly, we reveal a key principle for applying inference scaling techniques to structured outputs: "explore more but retain less" due to the unrecoverability characteristics of structured function calling generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機能呼び出しが環境とのインタラクションのコアメカニズムとして機能するなど、自律エージェントとして強みを増している。
一方、推論スケーリングは、推論プロセス中により多くの計算資源を割り当てることでLCM性能を向上させるための最先端技術となっている。
しかしながら、現在の推論スケーリングの研究は、主に非構造化出力生成タスクに焦点をあてており、関数呼び出しのような構造化出力への応用は、ほとんど探索されていない。
このギャップを埋めるために、細粒度ビームサーチとプロセス報酬モデルを組み合わせた推論スケーリングフレームワーク、ToolPRMを提案し、各関数呼び出しの内部ステップをスコアリングする。
ToolPRMをトレーニングするために、関数マスキング技術によって自動的に注釈付けされ、構造化ツール利用推論のためのステップレベルの報酬を提供する、最初の細粒度なコールプロセス監視データセットを構築した。
広範囲な実験により、ToolPRMは予測精度の観点から粗粒度および結果報酬モデルを上回ることが示され、関数呼び出し推論プロセスの監督におけるその強力な能力を示している。
ToolPRMを備えた推論スケーリング技術は、さまざまな関数呼び出しタスクやベンチマークでバックボーンモデルのパフォーマンスを大幅に改善する。
より重要なことは、構造的関数呼び出し生成の発見不能な特性のため、構造的出力に推論スケーリング技術を適用する上で重要な原則が明らかにされていることである。
関連論文リスト
- Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - ToolACE-R: Model-aware Iterative Training and Adaptive Refinement for Tool Learning [84.69651852838794]
ツール学習により、LLM(Large Language Models)は複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール学習のための反復学習と適応的洗練の両方を含む新しいフレームワークであるToolACE-Rを提案する。
我々は、いくつかのベンチマークデータセットにわたる広範な実験を行い、ToolACE-Rが高度なAPIベースのモデルと比較して、競争力のあるパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Hammer: Robust Function-Calling for On-Device Language Models via Function Masking [26.495781685810044]
Hammerはデバイス上での関数呼び出し用に特別に設計されたファンデーションモデルの新しいファミリーである。
我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークで堅牢な一般化を示すことを示している。
論文 参考訳(メタデータ) (2024-10-06T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。