論文の概要: TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices
- arxiv url: http://arxiv.org/abs/2511.22138v1
- Date: Thu, 27 Nov 2025 06:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.418669
- Title: TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices
- Title(参考訳): TinyLLM:エッジデバイスにおけるエージェントタスクのための小言語モデルの評価と最適化
- Authors: Mohd Ariful Haque, Fahad Rahman, Kishor Datta Gupta, Khalil Shujaee, Roy George,
- Abstract要約: 本稿では,エージェントタスク(機能/ツール/API呼び出し)における小言語モデル(SLM)の有効性について検討する。
本稿では、教師付き微調整(SFT)、パラメータ効率の高い微調整(PEFT)、強化学習(RL)、ハイブリッド手法を含むパラメータ駆動最適化戦略について述べる。
その結果,中規模モデル(1-3Bパラメータ)がウルトラコンパクトモデル(1Bパラメータ)を大幅に上回るモデルスケール間での精度差が明らかとなった。
この研究は、エッジデバイス上で、小さな言語モデルが正確で効率的で安定したエージェントAIを提供できるようにするためのハイブリッド最適化戦略の重要性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the effectiveness of small language models (SLMs) for agentic tasks (function/tool/API calling) with a focus on running agents on edge devices without reliance on cloud infrastructure. We evaluate SLMs using the Berkeley Function Calling Leaderboard (BFCL) framework and describe parameter-driven optimization strategies that include supervised fine-tuning (SFT), parameter-efficient fine-tuning (PEFT), reinforcement learning (RL)-based optimization, preference alignment via Direct Preference Optimization (DPO), and hybrid methods. We report results for models including TinyAgent, TinyLlama, Qwen, and xLAM across BFCL categories (simple, multiple, parallel, parallel-multiple, and relevance detection), both in live and non-live settings, and in multi-turn evaluations. We additionally detail a DPO training pipeline constructed from AgentBank data (e.g., ALFRED), including our conversion of SFT data to chosen-rejected pairs using TinyLlama responses as rejected outputs and manual validation. Our results demonstrate clear accuracy differences across model scales where medium-sized models (1-3B parameters) significantly outperform ultra-compact models (<1B parameters), achieving up to 65.74% overall accuracy, and 55.62% multi-turn accuracy with hybrid optimization. This study highlights the importance of hybrid optimization strategies that enable small language models to deliver accurate, efficient, and stable agentic AI on edge devices, making privacy-preserving, low-latency autonomous agents practical beyond the cloud.
- Abstract(参考訳): 本稿では,クラウドインフラに依存しないエッジデバイス上でのエージェント実行に着目し,エージェントタスク(関数/ツール/API呼び出し)に対する小言語モデル(SLM)の有効性について検討する。
我々は,BFCL(Berkeley Function Calling Leaderboard)フレームワークを用いてSLMを評価し,教師付き微調整(SFT),パラメータ効率細調整(PEFT),強化学習(RL)に基づく最適化,直接選好最適化(DPO)による選好アライメント,ハイブリッド手法などのパラメータ駆動最適化戦略について述べる。
我々は、BFCLカテゴリ(単純、多重、並列、並列多重、関連検出)のTinyAgent、TinyLlama、Qwen、xLAMを含むモデルについて、ライブおよび非ライブ環境で、マルチターン評価を行った。
さらに、AgentBankデータ(例えばALFRED)から構築されたDPOトレーニングパイプラインについて、TinyLlama応答を出力の拒否と手作業による検証として使用して、SFTデータを選択されたリジェクトペアに変換することを含め、詳細を述べる。
その結果,中規模モデル(1-3Bパラメータ)がウルトラコンパクトモデル(1Bパラメータ)を著しく上回り,65.74%の総合精度,55.62%のマルチターン精度をハイブリッド最適化で達成した。
この研究は、小さな言語モデルがエッジデバイス上で正確で効率的で安定したエージェントAIを提供できるようにするためのハイブリッド最適化戦略の重要性を強調した。
関連論文リスト
- Relation-Aware Bayesian Optimization of DBMS Configurations Guided by Affinity Scores [2.474203056060563]
データベース管理システム(DBMS)は,大規模および異種データの管理に基本的であり,その性能は構成パラメータの影響を強く受けている。
近年の研究では、機械学習を用いた自動構成最適化に焦点が当てられているが、既存のアプローチにはいくつかの重要な制限がある。
パラメータ依存をグラフとして表現する新しいフレームワークであるRelTuneを提案し,パフォーマンス関連セマンティクスを符号化したGNNベースの潜伏埋め込みを学習する。
論文 参考訳(メタデータ) (2025-10-31T03:46:42Z) - Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization [13.271737599933147]
本稿では,エントロピー強化フレームワークであるEntroPOを紹介し,既存の優先最適化アルゴリズムをマルチターンツール支援設定に適用する。
EntroPOは、さまざまな家族やサイズのモデル群を微調整することで検証する。
swebenchのリーダーボードでは、オープンウェイトモデルの間で、新しい最先端の結果が確立される。
論文 参考訳(メタデータ) (2025-09-15T20:36:19Z) - Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [45.58422897857411]
この研究は、LoRAを用いてパラメータ効率の良いCode Llamaを微調整することで、ハイパーパラメータ最適化のための大規模言語モデル(LLM)の使用について検討する。
提案手法は,計算オーバーヘッドを大幅に削減しつつ,競合的あるいは優れたRoot Mean Square Error(RMSE)を実現する。
その結果,LLMに基づく最適化によって,木構造型パーゼンエミュレータ (TPE) のようなベイズ的手法が確立されただけでなく,知覚品質と低レイテンシ処理を必要とする実世界のアプリケーションへのチューニングが高速化された。
論文 参考訳(メタデータ) (2025-04-08T13:15:47Z) - Pruning-Based TinyML Optimization of Machine Learning Models for Anomaly Detection in Electric Vehicle Charging Infrastructure [8.29566258132752]
本稿では,EVCIを対象とする資源制約環境における異常検出のためのプルーニング手法について検討する。
最適化されたモデルは、モデルのサイズと推論時間の大幅な削減を実現しました。
特に,EVCIでは,プルーニングとFSが重要な異常検出能力を保ちながら,計算効率を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-03-19T00:18:37Z) - Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。
ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。
我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。