Fugu-MT 論文翻訳(概要): Internalizing Tool Knowledge in Small Language Models via QLoRA Fine-Tuning

論文の概要: Internalizing Tool Knowledge in Small Language Models via QLoRA Fine-Tuning

arxiv url: http://arxiv.org/abs/2605.17774v2
Date: Tue, 26 May 2026 01:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:40.591864
Title: Internalizing Tool Knowledge in Small Language Models via QLoRA Fine-Tuning
Title（参考訳）: QLoRAファインチューニングによる小言語モデルの内在化ツール知識
Authors: Yuval Shemla, Ayal Yakobe, Tanmay Agarwal, Dhaval Patel, Kaoutar El Maghraoui,
Abstract要約: 本稿では,ツールユース知識が小言語モデルに内在できるかどうかを考察する。 Gemma 4 E4BとQwen3-4Bを8ビットQLoRAで約1,700のツール使用例で微調整する。提案手法では,ツールカタログを完全に省略する。
参考スコア（独自算出の注目度）: 4.42060064555688
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large language models are increasingly used as planning components in agentic systems, but current tool-use pipelines often require full tool schemas to be included in every prompt, creating substantial token overhead and limiting the practicality of smaller models. This paper investigates whether tool-use knowledge can be internalized into small language models through parameter-efficient fine-tuning, enabling structured planning without explicit tool descriptions at inference time. Using AssetOpsBench as the primary benchmark, we fine-tune Gemma 4 E4B and Qwen3-4B with 8-bit QLoRA on approximately 1,700 tool-use examples spanning tool knowledge, question-to-plan mappings, and execution-style traces. We evaluate the resulting models under description-free inference, where the prompt omits the tool catalog entirely. The fine-tuned models outperform an informed unfine-tuned baseline that receives full tool descriptions, reducing input length by 82.6\% while improving structural and LLM-judge planning scores. In the best Gemma run, the model achieves an AT-F1 of 0.65 and an overall judge score of 3.88, compared with 0.47 and 2.88 for the informed baseline. Qwen3-4B achieves a strong overall judge score of 3.78 while using 62\% less memory and running 2.5$\times$ faster than Gemma, though it also exhibits greater catastrophic forgetting on general multiple-choice benchmarks. Additional ablations show that LoRA rank controls a quality--retention trade-off, with $r=32$ maximizing planning quality and smaller ranks preserving more general knowledge. These results suggest that, for fixed tool catalogs, QLoRA fine-tuning can shift tool knowledge from prompt context into model weights, substantially reducing inference overhead while maintaining or improving tool-planning quality.
Abstract（参考訳）: エージェントシステムのプランニングコンポーネントとして大規模言語モデルがますます使用されているが、現在のツール使用パイプラインでは、すべてのプロンプトに完全なツールスキーマを含める必要があり、トークンのオーバーヘッドが大きくなり、より小さなモデルの実用性が制限される。本稿では、パラメータ効率のよい微調整により、ツール使用知識を小言語モデルに内部化できるかどうかを考察し、推論時に明示的なツール記述なしで構造化された計画を可能にする。 AssetOpsBenchを主要なベンチマークとして使用し、ツールの知識、質問から計画へのマッピング、実行スタイルのトレースにまたがる、およそ1,700のツール使用例に対して、8ビットQLoRAでGemma 4 E4BとQwen3-4Bを微調整します。提案手法では,ツールカタログを完全に省略する。細調整されたモデルは、完全なツール記述を受信し、入力長を82.6\%削減し、構造的およびLCM-judge計画スコアを改善しながら、インフォメーションされていないベースラインよりも優れている。最高のGemma実行では、このモデルはAT-F1が0.65であり、判定スコアが3.88であるのに対し、情報ベースラインは0.47と2.88である。 Qwen3-4B は 62\% のメモリを使用し、Gemma よりも2.5$\times$ で実行しながら、判定スコアが3.78 である。さらに、LoRAのランクは、計画品質を最大化する$r=32$と、より一般的な知識を保ったより小さなランクで、品質維持トレードオフを制御していることを示している。これらの結果は,固定ツールカタログにおいて,QLoRAの微調整により,ツールの知識を迅速なコンテキストからモデルウェイトにシフトし,ツールプランニングの品質を維持したり改善したりしながら,推論オーバーヘッドを大幅に低減することができることを示唆している。

関連論文リスト

LLM Agents Already Know When to Call Tools -- Even Without Reasoning [25.40369702634587]
LLMエージェントは、たとえモデルが直接答えられるとしても、ツールを無差別に呼び出す傾向がある。ツールコールが実際に必要になった場合、既存のベンチマークは体系的に研究されない。ツールの必要性の3つのカテゴリにまたがる18の環境のベンチマークである When2Tool を提案する。
論文参考訳（メタデータ） (2026-05-10T01:37:40Z)
Tool-Aware Planning in Contact Center AI: Evaluating LLMs through Lineage-Guided Query Decomposition [2.8180871881371456]
コンタクトセンターにおけるツール・アウェア・プラン生成のためのドメイン・グラウンド・フレームワークとベンチマークを提案する。 i) 基準ベースの計画評価フレームワークを2つのモードで動作させる: (i) 計量的評価器とワンショット評価器、および (ii) 評価器>最適化器ループを介して計画を反復的に洗練するデータ方法論である。
論文参考訳（メタデータ） (2026-02-16T17:36:05Z)
MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文参考訳（メタデータ） (2026-01-31T23:19:39Z)
One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文参考訳（メタデータ） (2025-10-30T06:08:27Z)
OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents [49.34040731113563]
我々は,コンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,最初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。厳密な手作業による検証は158の高品質なツールをもたらし、それぞれが正しい機能、実用性、汎用性を検証します。 OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定している。
論文参考訳（メタデータ） (2025-10-28T15:56:36Z)
Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文参考訳（メタデータ） (2025-06-05T04:35:49Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models [43.895478182631116]
ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。結果は、ToolBHベンチマークで提示された重要な課題を示している。
論文参考訳（メタデータ） (2024-06-28T16:03:30Z)
ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases [49.7798644853604]
本稿では,多種多様なツール利用コーパスを自動生成し,コンパクト言語モデル上での汎用ツール利用能力を学習するためのフレームワークであるToolAlpacaを紹介する。 ToolAlpacaは,GPT-3.5のような非常に大きな言語モデルに匹敵する,効果的な汎用ツール利用能力を実現する。
論文参考訳（メタデータ） (2023-06-08T15:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。