論文の概要: STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models
- arxiv url: http://arxiv.org/abs/2602.03022v1
- Date: Tue, 03 Feb 2026 02:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.199827
- Title: STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models
- Title(参考訳): STAR:スーパーティニー関数呼び出しモデルのための類似性誘導型教師支援リファインメント
- Authors: Jiliang Ni, Jiachen Pu, Zhongyi Yang, Jingfeng Luo, Conggang Hu,
- Abstract要約: 関数呼び出しにおける大規模言語モデル(LLM)は、高度なAIエージェントを作成する上で重要であるが、その大規模化は広く採用を妨げている。
STAR:Simisity-Guided Teacher-Assisted Refinementは,LLMの能力をスーパーティニーモデルに効果的に転送する,新しい包括的フレームワークである。
- 参考スコア(独自算出の注目度): 0.7829352305480285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of Large Language Models (LLMs) in function calling is pivotal for creating advanced AI agents, yet their large scale hinders widespread adoption, necessitating transferring their capabilities into smaller ones. However, existing paradigms are often plagued by overfitting, training instability, ineffective binary rewards for multi-solution tasks, and the difficulty of synergizing techniques. We introduce STAR: Similarity-guided Teacher-Assisted Refinement, a novel holistic framework that effectively transfers LLMs' capabilities to super-tiny models. STAR consists of two core technical innovations: (1) Constrained Knowledge Distillation (CKD), a training objective that augments top-k forward KL divergence to suppress confidently incorrect predictions, ensuring training stability while preserving exploration capacity for downstream RL. STAR holistically synergizes these strategies within a cohesive training curriculum, enabling super-tiny models to achieve exceptional performance on complex function calling tasks; (2) Similarity-guided RL (Sim-RL), a RL mechanism that introduces a fine-grained, similarity-based reward. This provides a robust, continuous, and rich signal for better policy optimization by evaluating the similarity between generated outputs and the ground truth. Extensive experiments on challenging and renowned benchmarks demonstrate the effectiveness of our method. Our STAR models establish SOTA in their size classes, significantly outperforming baselines. Remarkably, our 0.6B STAR model achieves the best performance among all open models under 1B, surpassing even several well-known open models at a larger scale. STAR demonstrates a training framework that distills capabilities of LLMs into super-tiny models, paving the way for powerful, accessible, and efficient AI agents.
- Abstract(参考訳): 関数呼び出しにおけるLarge Language Models(LLMs)の拡散は、高度なAIエージェントを作成する上で重要なものだが、その大規模化は広く採用を妨げ、その機能をより小さなものに移行する必要がある。
しかし、既存のパラダイムは、過度な適合、トレーニングの不安定性、マルチソリューションタスクに対する非効率なバイナリ報酬、および同期技術の難しさによって悩まされることが多い。
STAR: similarity-guided Teacher-Assisted Refinementは,LLMの能力をスーパーティニーモデルに効果的に転送する,新しい総合的なフレームワークである。
STARは,(1)制約付き知識蒸留(CKD, Constrained Knowledge Distillation)の2つの技術革新で構成されている。
STARは,複雑な関数呼び出しタスクにおいて,スーパーティニーモデルによる例外的なパフォーマンスを実現するための,結合学習カリキュラム内でこれらの戦略を相乗的にシナジする; (2) 類似性誘導型RL(Sim-RL)は,微粒で類似性に基づく報酬を付与する機構である。
これは、生成された出力と基礎的な真実との類似性を評価することによって、より優れたポリシー最適化のための堅牢で連続的でリッチな信号を提供する。
挑戦的・名声の高いベンチマーク実験により,本手法の有効性を実証した。
我々のSTARモデルは、そのサイズクラスでSOTAを確立し、ベースラインを著しく上回る。
注目すべきは、私たちの0.6B STARモデルは、1B以下のすべてのオープンモデルの中で最高のパフォーマンスを達成し、より大規模でよく知られたオープンモデルでさえも上回っていることです。
STARは、LLMの能力をスーパーティニーモデルに蒸留し、強力でアクセシブルで効率的なAIエージェントへの道を開くトレーニングフレームワークを実証している。
関連論文リスト
- STAR: STacked AutoRegressive Scheme for Unified Multimodal Learning [37.68078190711403]
STAR:STacked AutoRegressive scheme for task-progressive unified multimodal learning。
このアプローチはマルチモーダル学習を理解、生成、編集という複数の段階に分解する。
実験により、STARがGenEval(0.91)、DPG-Bench(87.44)、ImgEdit(4.34)の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2025-12-15T07:02:59Z) - MENTOR: A Reinforcement Learning Framework for Enabling Tool Use in Small Models via Teacher-Optimized Rewards [8.645370827540996]
大規模言語モデル (LLM) のツール使用能力をより小さく、より効率的な小言語モデル (SLM) に拡張することは、実用上の重要な課題である。
教師付き微調整(英語版)(SFT)は、堅牢な方法論を学ぶのではなく、静的な教師軌跡のセットを模倣するようにモデルを訓練するので、一般化に苦しむ。
本稿では,強化学習と教師誘導蒸留を組み合わせたフレームワークであるMENTORを提案する。
論文 参考訳(メタデータ) (2025-10-21T08:03:14Z) - Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning [20.515599491717442]
マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
論文 参考訳(メタデータ) (2025-06-16T02:56:13Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。
LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文 参考訳(メタデータ) (2025-05-21T09:35:43Z) - Vintix: Action Model via In-Context Reinforcement Learning [78.11130335098936]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。