論文の概要: Exploring Superior Function Calls via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.05118v2
- Date: Fri, 08 Aug 2025 01:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 12:11:10.895149
- Title: Exploring Superior Function Calls via Reinforcement Learning
- Title(参考訳): 強化学習による上機能コールの探索
- Authors: Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang,
- Abstract要約: 本稿では,グループ相対的政策最適化を強化するための新しい強化学習フレームワークを提案する。
機能呼び出しにおける3つの重要な課題に対処する: 政策学習における不十分な探索、連鎖生成における構造的推論の欠如、パラメータ抽出の不十分な検証。
本フレームワークは,86.02%の精度でオープンソースモデル間の最先端性能を実現し,複雑な多機能シナリオにおいて標準GRPOを最大6%上回っている。
- 参考スコア(独自算出の注目度): 9.278264697070306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strategic entropy based exploration specifically tailored for function calling tasks. Our approach addresses three critical challenges in function calling: insufficient exploration during policy learning, lack of structured reasoning in chain-of-thought generation, and inadequate verification of parameter extraction. Our two-stage data preparation pipeline ensures high-quality training samples through iterative LLM evaluation and abstract syntax tree validation. Extensive experiments on the Berkeley Function Calling Leaderboard demonstrate that this framework achieves state-of-the-art performance among open-source models with 86.02\% overall accuracy, outperforming standard GRPO by up to 6\% on complex multi-function scenarios. Notably, our method shows particularly strong improvements on code-pretrained models, suggesting that structured language generation capabilities provide an advantageous starting point for reinforcement learning in function calling tasks. We will release all the code, models and dataset to benefit the community.
- Abstract(参考訳): 関数呼び出し機能は、現実世界のアプリケーションに大規模言語モデルをデプロイするためには不可欠だが、現在のトレーニングアプローチでは、堅牢な推論戦略の開発に失敗している。
教師付き微調整は表面的なパターンマッチングに依存するモデルを生成するが、標準的な強化学習法は構造化関数呼び出しの複雑なアクション空間と競合する。
本稿では,機能呼び出しタスクに適した戦略的エントロピーに基づく探索を通じて,グループ間の相対的政策最適化を強化するための新しい強化学習フレームワークを提案する。
提案手法は,機能呼び出しにおける3つの重要な課題に対処する: 政策学習中の探索が不十分なこと,思考連鎖生成における構造的推論の欠如,パラメータ抽出の不十分な検証。
我々の2段階のデータ準備パイプラインは、反復LLM評価と抽象構文木検証による高品質なトレーニングサンプルを保証する。
バークレー関数呼び出しリーダーボード(Berkeley Function Calling Leaderboard)の大規模な実験では、このフレームワークは86.02\%の精度で、複雑な多機能シナリオにおいて、標準GRPOを最大6\%上回る精度で、最先端のパフォーマンスを達成している。
特に,提案手法は,言語生成能力が機能呼び出しタスクにおける強化学習に有利な出発点となることを示す。
コミュニティに利益をもたらすために、すべてのコード、モデル、データセットをリリースします。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Scalable In-Context Q-Learning [42.80296905313835]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models [0.0]
本稿では、事前モデル知識を用いて探索過程をガイドし、強化学習を高速化することを提案する。
我々は,Q-函数の最適Q-函数への収束に関する理論的保証を,探索政策のクラスとして提案する。
論文 参考訳(メタデータ) (2025-04-08T12:33:38Z) - Is a Good Foundation Necessary for Efficient Reinforcement Learning? The Computational Role of the Base Model in Exploration [32.77845864484552]
本稿では,言語モデルを用いたRLの新しい計算フレームワークを提案する。
データ効率には必要ありませんが、フレームワーク内の任意のアルゴリズムのランタイムのバウンダリは低くなっています。
SpannerSamplingというアルゴリズムを導入し,事前学習したモデルが十分なカバレッジを享受するたびに,最適なデータ効率と計算効率を実現する。
論文 参考訳(メタデータ) (2025-03-10T15:31:42Z) - Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。
Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。
Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2025-02-10T15:54:34Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Multi-granularity Knowledge Transfer for Continual Reinforcement Learning [10.89257691485739]
連続強化学習(CRL)は、RLエージェントに一連のタスクを学習する能力を与える。
既存の手法は、しばしば類似のタスク間できめ細かい知識の伝達に重点を置いている。
本稿では,大きめの知識伝達を促進するためのMT-Coreという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T03:06:51Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。