Fugu-MT 論文翻訳(概要): Exploring Superior Function Calls via Reinforcement Learning

論文の概要: Exploring Superior Function Calls via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2508.05118v1
Date: Thu, 07 Aug 2025 07:51:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-08 18:59:39.752952
Title: Exploring Superior Function Calls via Reinforcement Learning
Title（参考訳）: 強化学習による上機能コールの探索
Authors: Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang,
Abstract要約: 本稿では,グループ相対的政策最適化を強化するための新しい強化学習フレームワークを提案する。機能呼び出しにおける3つの重要な課題に対処する: 政策学習における不十分な探索、連鎖生成における構造的推論の欠如、パラメータ抽出の不十分な検証。本フレームワークは,86.02%の精度でオープンソースモデル間の最先端性能を実現し,複雑な多機能シナリオにおいて標準GRPOを最大6%上回っている。
参考スコア（独自算出の注目度）: 9.278264697070306
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strategic entropy based exploration specifically tailored for function calling tasks. Our approach addresses three critical challenges in function calling: insufficient exploration during policy learning, lack of structured reasoning in chain-of-thought generation, and inadequate verification of parameter extraction. Our two-stage data preparation pipeline ensures high-quality training samples through iterative LLM evaluation and abstract syntax tree validation. Extensive experiments on the Berkeley Function Calling Leaderboard demonstrate that this framework achieves state-of-the-art performance among open-source models with 86.02\% overall accuracy, outperforming standard GRPO by up to 6\% on complex multi-function scenarios. Notably, our method shows particularly strong improvements on code-pretrained models, suggesting that structured language generation capabilities provide an advantageous starting point for reinforcement learning in function calling tasks. We will release all the code, models and dataset to benefit the community.
Abstract（参考訳）: 関数呼び出し機能は、現実世界のアプリケーションに大規模言語モデルをデプロイするためには不可欠だが、現在のトレーニングアプローチでは、堅牢な推論戦略の開発に失敗している。教師付き微調整は表面的なパターンマッチングに依存するモデルを生成するが、標準的な強化学習法は構造化関数呼び出しの複雑なアクション空間と競合する。本稿では,機能呼び出しタスクに適した戦略的エントロピーに基づく探索を通じて,グループ間の相対的政策最適化を強化するための新しい強化学習フレームワークを提案する。提案手法は,機能呼び出しにおける3つの重要な課題に対処する: 政策学習中の探索が不十分なこと,思考連鎖生成における構造的推論の欠如,パラメータ抽出の不十分な検証。我々の2段階のデータ準備パイプラインは、反復LLM評価と抽象構文木検証による高品質なトレーニングサンプルを保証する。バークレー関数呼び出しリーダーボード(Berkeley Function Calling Leaderboard)の大規模な実験では、このフレームワークは86.02\%の精度で、複雑な多機能シナリオにおいて、標準GRPOを最大6\%上回る精度で、最先端のパフォーマンスを達成している。特に,提案手法は,言語生成能力が機能呼び出しタスクにおける強化学習に有利な出発点となることを示す。コミュニティに利益をもたらすために、すべてのコード、モデル、データセットをリリースします。

関連論文リスト

ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文参考訳（メタデータ） (2026-01-29T16:04:59Z)
MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文参考訳（メタデータ） (2026-01-09T08:19:11Z)
Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。 Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-12-25T06:31:11Z)
AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。 AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-12-22T08:07:00Z)
A First-Order Logic-Based Alternative to Reward Models in RLHF [0.0]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の価値観と嗜好の整合において重要な役割を果たす。既存のアプローチは報酬モデルに大きく依存し、言語モデルから人間に沿った行動へと導く。本稿では,従来の報酬モデルに代わる論理類似性に基づく報酬機構を提案する。
論文参考訳（メタデータ） (2025-12-16T05:15:17Z)
Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文参考訳（メタデータ） (2025-10-22T17:41:30Z)
ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文参考訳（メタデータ） (2025-10-01T09:11:27Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Scalable In-Context Q-Learning [42.80296905313835]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。 textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文参考訳（メタデータ） (2025-06-02T04:21:56Z)
Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models [0.0]
本稿では、事前モデル知識を用いて探索過程をガイドし、強化学習を高速化することを提案する。我々は,Q-函数の最適Q-函数への収束に関する理論的保証を,探索政策のクラスとして提案する。
論文参考訳（メタデータ） (2025-04-08T12:33:38Z)
Is a Good Foundation Necessary for Efficient Reinforcement Learning? The Computational Role of the Base Model in Exploration [32.77845864484552]
本稿では,言語モデルを用いたRLの新しい計算フレームワークを提案する。データ効率には必要ありませんが、フレームワーク内の任意のアルゴリズムのランタイムのバウンダリは低くなっています。 SpannerSamplingというアルゴリズムを導入し,事前学習したモデルが十分なカバレッジを享受するたびに,最適なデータ効率と計算効率を実現する。
論文参考訳（メタデータ） (2025-03-10T15:31:42Z)
Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。 Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。 Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文参考訳（メタデータ） (2025-02-10T15:54:34Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。特定の論理的および数学的推論タスクに焦点を当てている。このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文参考訳（メタデータ） (2024-10-24T16:27:35Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Multi-granularity Knowledge Transfer for Continual Reinforcement Learning [10.89257691485739]
連続強化学習(CRL)は、RLエージェントに一連のタスクを学習する能力を与える。既存の手法は、しばしば類似のタスク間できめ細かい知識の伝達に重点を置いている。本稿では,大きめの知識伝達を促進するためのMT-Coreという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-25T03:06:51Z)
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文参考訳（メタデータ） (2022-10-03T07:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。