論文の概要: Meta-Tool: Efficient Few-Shot Tool Adaptation for Small Language Models
- arxiv url: http://arxiv.org/abs/2604.20148v1
- Date: Wed, 22 Apr 2026 03:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.950062
- Title: Meta-Tool: Efficient Few-Shot Tool Adaptation for Small Language Models
- Title(参考訳): Meta-Tool: 小型言語モデルのための効率的なFew-Shotツール適応
- Authors: Sachin Kumar,
- Abstract要約: Meta-Toolは、ハイパーネットワークベースのLoRA適応と慎重に設計された少数ショットプロンプトを比較した、制御された実証研究である。
非自明な重量行列を生成するにもかかわらず、ハイパーネットワークは数発のプロンプトだけで測定可能な改善を提供しない。
適切に設計されたプロンプトを持つ3Bモデルは、GPT-5の平均性能の79.7%を10倍のレイテンシで達成している。
- 参考スコア(独自算出の注目度): 5.218766876318545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can small language models achieve strong tool-use performance without complex adaptation mechanisms? This paper investigates this question through Meta-Tool, a controlled empirical study comparing hypernetwork-based LoRA adaptation against carefully designed few-shot prompting. Using a Llama-3.2-3B-Instruct backbone, we evaluate four adaptation mechanisms--few-shot prompting, documentation encoding, hypernetwork-generated LoRA weights, and value-guided beam search--across four diverse benchmarks: Gorilla APIBench, Spider 2.0, WebArena, and InterCode. Our central finding is a well-supported negative result: despite generating non-trivial weight matrices, the 227.8M-parameter hypernetwork provides no measurable improvement over few-shot prompting alone. Comprehensive ablation studies reveal that few-shot examples contribute +21.5% to performance and documentation contributes +5.0%, while the hypernetwork adds 0%. A 3B model with well-designed prompts achieves 79.7% of GPT-5's average performance at $10 \times$ lower latency. Error analysis across 722 failure cases spanning all shot counts (0--5) shows that at the 5-shot configuration (106 failures), failure modes are task-dependent: schema-heavy tasks (Spider 2.0, WebArena) show near-zero format errors with remaining failures semantic, while format errors dominate on Gorilla (100%) and InterCode (70%). These findings redirect practitioners toward prompt engineering and example curation rather than complex adaptation architectures.
- Abstract(参考訳): 小言語モデルは複雑な適応機構を使わずに強力なツール使用性能を達成できるのか?
本稿では、ハイパーネットワークに基づくLoRA適応と、慎重に設計された少数ショットプロンプトの比較実験であるMeta-Toolを用いて、この問題を考察する。
Llama-3.2-3B-インストラクトバックボーンを用いて,Fw-shotプロンプト,ドキュメントエンコーディング,ハイパーネットワーク生成のLoRA重み付け,値誘導ビームサーチという4つの適応機構を,Gorilla APIBench,Spider 2.0,WebArena,InterCodeの4つのベンチマークで評価した。
非自明な重み行列を生成するにもかかわらず、227.8Mパラメータのハイパーネットワークは、数発のプロンプトだけでは測定不可能な改善をもたらす。
包括的アブレーション調査によると、少数のサンプルはパフォーマンスに+21.5%、ドキュメントは+5.0%、ハイパーネットワークは0%である。
適切に設計されたプロンプトを持つ3Bモデルは、GPT-5の平均性能の79.7%を10 \times$低レイテンシで達成している。
ショット数にまたがる722の障害ケース(0--5)のエラー解析によると、5ショット構成(106の障害)では、障害モードはタスク依存である。
これらの知見は、複雑な適応アーキテクチャではなく、迅速なエンジニアリングとサンプルキュレーションに実践者を誘導する。
関連論文リスト
- Systematic Capability Benchmarking of Frontier Large Language Models for Offensive Cyber Tasks [0.0]
我々は、NYU CTF Benchの200の課題すべてについて、7つのプロバイダから10のフロンティアモデルを評価する。
制御された因子分析により、Kali Linux環境はUbuntuよりも9.5パーセント向上していることがわかった。
モデルの中では、Claude 4.5 Opusが最も高い解決率(59%)を達成し、続いてGemini 3 Pro(52%)、そしてGemini 3 Flashは1ソルバあたり0.05ドルで最高のコスト効率を提供する。
論文 参考訳(メタデータ) (2026-04-18T22:13:23Z) - How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - CURA: Size Isnt All You Need - A Compact Universal Architecture for On-Device Intelligence [0.6244816393907943]
本稿では,多様な機械学習タスクに対して,コンパクトで軽量なソリューションを提供するアーキテクチャCURAを提案する。
コンパクト化のためには、ベースラインモデルに比べて最大2500倍のパラメータで等価な精度を実現した。
一般化のために、4つのNLPベンチマークと1つのコンピュータビジョンデータセットで一貫した性能を示した。
論文 参考訳(メタデータ) (2025-09-29T11:06:37Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。