論文の概要: Exploring Weaknesses in Function Call Models via Reinforcement Learning: An Adversarial Data Augmentation Approach
- arxiv url: http://arxiv.org/abs/2601.19122v1
- Date: Tue, 27 Jan 2026 02:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.140739
- Title: Exploring Weaknesses in Function Call Models via Reinforcement Learning: An Adversarial Data Augmentation Approach
- Title(参考訳): 強化学習による関数呼び出しモデルの弱さの探索:敵対的データ拡張アプローチ
- Authors: Weiran Guo, Bing Bo, Shaoxiang Wu, Jingsheng Yang,
- Abstract要約: 本稿では,Large Language Models (LLMs) の関数呼び出し機能を改善するために,新たな逆データ拡張手法を提案する。
我々のトレーニングフレームワークでは,関数呼び出し(FC)モデルに挑戦するために特別に設計された逆クエリを生成するために,強化学習で訓練されたクエリモデルを導入している。
全体として,本手法はより堅牢なFCモデルの開発を進め,LCMが外部ツールと対話する際の弱点を特定し,修正するための体系的な方法を提供する。
- 参考スコア(独自算出の注目度): 1.4795423578096045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Function call capabilities have become crucial for Large Language Models (LLMs), enabling them to interact more effectively with external tools and APIs. Existing methods for improving the function call capabilities of LLMs rely on data obtained either through manual annotation or automated generation by models, and use this data to finetune the LLMs. However, these methods often lack targeted design and are constrained by fixed patterns and data distributions, which limits their effectiveness in enhancing the generalization and robustness of function call LLMs. To address this limitation, we propose a novel adversarial data augmentation method that employs reinforcement learning to systematically identify and target the weaknesses of function call LLMs. Our training framework introduces a query model trained with reinforcement learning (RL) to generate adversarial queries that are specifically designed to challenge function call (FC) models. This approach adopts a zero sum game formulation, where the query model and the FC model engage in iterative alternating training. Overall, our method advances the development of more robust FC models and provides a systematic way to identify and correct weaknesses in the ability of LLMs to interact with external tools.
- Abstract(参考訳): 関数呼び出し機能は、LLM(Large Language Models)にとって重要になり、外部ツールやAPIとのより効果的な対話を可能にした。
LLMの関数呼び出し機能を改善するための既存の方法は、手動のアノテーションまたはモデルによる自動生成によって得られたデータに依存し、このデータを使用してLLMを微調整する。
しかしながら、これらの手法はターゲット設計を欠くことが多く、固定パターンやデータ分布に制約されているため、関数呼び出し LLM の一般化とロバスト性を高める効果が制限される。
この制限に対処するため,LLMの弱点を体系的に識別し,対象とする強化学習を用いた,新たな逆データ拡張手法を提案する。
我々のトレーニングフレームワークは、強化学習(RL)で訓練されたクエリモデルを導入し、関数呼び出し(FC)モデルに挑戦するために特別に設計された逆クエリを生成する。
このアプローチはゼロ和ゲーム定式化を採用し、クエリモデルとFCモデルが反復的な交互学習を行う。
全体として,本手法はより堅牢なFCモデルの開発を進め,LCMが外部ツールと対話する際の弱点を特定し,修正するための体系的な方法を提供する。
関連論文リスト
- Reasoning through Exploration: A Reinforcement Learning Framework for Robust Function Calling [35.97270347306353]
グループ相対政策最適化(GRPO)に基づく新しいRLフレームワークである textbfEGPO を提案する。
EGPOの中核はエントロピー強化の利点関数であり、モデルのChain-of-Thought(CoT)のエントロピーをポリシー勾配に統合する。
挑戦的なBFCL(Berkeley Function Calling Leaderboard)では、EGPOでトレーニングされた4Bパラメータモデルが、同等サイズのモデルの間で新たな最先端を設定している。
論文 参考訳(メタデータ) (2025-08-07T07:51:38Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。