Fugu-MT 論文翻訳(概要): Advancing SLM Tool-Use Capability using Reinforcement Learning

論文の概要: Advancing SLM Tool-Use Capability using Reinforcement Learning

arxiv url: http://arxiv.org/abs/2509.04518v2
Date: Mon, 08 Sep 2025 19:46:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-10 12:33:22.813591
Title: Advancing SLM Tool-Use Capability using Reinforcement Learning
Title（参考訳）: 強化学習を用いたSLMツール利用能力の向上
Authors: Dhruvi Paprunia, Vansh Kharidia, Pankti Doshi,
Abstract要約: ツールを効果的に利用できることは、LLM(Large Language Models)の定義機能となり、外部データや内部リソースにアクセスできるようになった。小言語モデル(SLM)は、特にリソース制約のある設定において、ツールの使用を正確に統合する際の課題に直面します。本研究では,強化学習,特にグループ相対的政策最適化がSLMのツール利用をいかに向上させるかを検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In an era where tool-augmented AI agents are becoming increasingly vital, our findings highlight the ability of Group Relative Policy Optimization (GRPO) to empower SLMs, which are traditionally constrained in tool use. The ability to use tools effectively has become a defining feature of Large Language Models (LLMs), allowing them to access external data and internal resources. As AI agents grow more sophisticated, tool-use capabilities have become indispensable. While LLMs have made significant progress in this area, Small Language Models (SLMs) still face challenges in accurately integrating tool use, especially in resource-constrained settings. This study investigates how Reinforcement Learning, specifically Group Relative Policy Optimization (GRPO), can enhance the tool-use accuracy of SLMs. By designing a well-defined reward system that reinforces structured JSON output, correct tool selection, and precise parameter usage, we demonstrate that GRPO enables SLMs to achieve significant improvements in tool-use capabilities (function calling/JSON output). Our approach provides a computationally efficient training method that enhances SLMs practical deployment in real-world AI applications.
Abstract（参考訳）: ツール強化されたAIエージェントがますます重要になっている時代において、私たちの発見は、伝統的にツール使用に制約されたSLMを強化するためのグループ相対ポリシー最適化(GRPO)の能力を強調しました。ツールを効果的に利用できることは、LLM(Large Language Models)の定義機能となり、外部データや内部リソースにアクセスできるようになった。 AIエージェントがより洗練されるにつれて、ツールの使用能力は欠かせないものになっている。 LLMはこの分野で大きな進歩を遂げているが、Small Language Models(SLM)は、特にリソース制約のある設定において、ツールの使用を正確に統合する上で、依然として課題に直面している。本研究では,強化学習,特にグループ相対政策最適化(GRPO)がSLMのツール使用精度を向上する方法について検討する。構造化されたJSON出力、正しいツール選択、正確なパラメータ使用量を強化した、明確に定義された報酬システムの設計により、GRPOがツール使用能力(関数呼び出し/JSON出力)を大幅に改善できることを示す。本手法は,実世界のAIアプリケーションにおけるSLMの実践的展開を向上させるための,計算効率のよいトレーニング手法を提供する。

関連論文リスト

FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文参考訳（メタデータ） (2025-04-09T10:42:36Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Tool Unlearning for Tool-Augmented LLMs [14.755831733659699]
ツール強化された大規模言語モデル(LLM)は、クエリとレスポンスのペアのデータセットに基づいてトレーニングされることが多い。 ToolDeleteは、ツール拡張LDMからの未学習ツールの最初のアプローチである。
論文参考訳（メタデータ） (2025-02-03T05:50:55Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Towards Practical Tool Usage for Continually Learning LLMs [28.62382804829694]
大規模言語モデルは、言語ベースのタスクを解くために生まれつきのスキルを示す。しかし、彼らの知識はパラメータの中に直接格納され、時間内には静的のままである。ツールの使用は、LLMがインターフェイスを通してアクセス可能なシステムに作業をオフロードするのに役立つ。しかし、それらを使用するLCMは、長期間使用するためには、まだ非定常環境に適応する必要がある。
論文参考訳（メタデータ） (2024-04-14T19:45:47Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文参考訳（メタデータ） (2023-05-26T17:50:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。