論文の概要: Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization
- arxiv url: http://arxiv.org/abs/2502.04428v1
- Date: Thu, 06 Feb 2025 18:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:56.055848
- Title: Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization
- Title(参考訳): 信頼性とシークエンス: ベンチマークから一般化まで、不確実性に基づくオンデバイス LLM ルーティングを探る
- Authors: Yu-Neng Chuang, Leisheng Yu, Guanchu Wang, Lizhe Zhang, Zirui Liu, Xuanting Cai, Yang Sui, Vladimir Braverman, Xia Hu,
- Abstract要約: 大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
- 参考スコア(独自算出の注目度): 61.02719787737867
- License:
- Abstract: Large language models (LLMs) are increasingly deployed and democratized on edge devices. To improve the efficiency of on-device deployment, small language models (SLMs) are often adopted due to their efficient decoding latency and reduced energy consumption. However, these SLMs often generate inaccurate responses when handling complex queries. One promising solution is uncertainty-based SLM routing, offloading high-stakes queries to stronger LLMs when resulting in low-confidence responses on SLM. This follows the principle of "If you lack confidence, seek stronger support" to enhance reliability. Relying on more powerful LLMs is yet effective but increases invocation costs. Therefore, striking a routing balance between efficiency and efficacy remains a critical challenge. Additionally, efficiently generalizing the routing strategy to new datasets remains under-explored. In this paper, we conduct a comprehensive investigation into benchmarking and generalization of uncertainty-driven routing strategies from SLMs to LLMs over 1500+ settings. Our findings highlight: First, uncertainty-correctness alignment in different uncertainty quantification (UQ) methods significantly impacts routing performance. Second, uncertainty distributions depend more on both the specific SLM and the chosen UQ method, rather than downstream data. Building on the insight, we propose a calibration data construction instruction pipeline and open-source a constructed hold-out set to enhance routing generalization on new downstream scenarios. The experimental results indicate calibration data effectively bootstraps routing performance without any new data.
- Abstract(参考訳): 大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
デバイス上でのデプロイメントの効率を改善するため、スモールランゲージモデル(SLM)がしばしば採用されている。
しかし、これらのSLMは複雑なクエリを扱う際に、しばしば不正確な応答を生成する。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
これは、信頼性を高めるために、"信頼を欠いているなら、より強力なサポートを求める"という原則に従っている。
より強力なLCMを頼りにすることは、まだ効果的だが、実行コストは増大する。
したがって、効率と有効性の間のルーティングバランスを打つことは、依然として重要な課題である。
さらに、ルーティング戦略を新しいデータセットに効率的に一般化する方法については、未検討のままである。
本稿では,1500以上の設定において,SLMからLCMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を総合的に検討する。
まず、異なる不確実性定量化法(UQ)における不確実性と不確かさのアライメントは、ルーティング性能に大きな影響を与えます。
第二に、不確実性分布は下流データよりも特定のSLMと選択されたUQ法の両方に依存している。
この知見に基づいて、キャリブレーションデータ構築命令パイプラインを提案し、新しい下流シナリオにおけるルーティングの一般化を強化するために構築されたホールトアウトセットをオープンソース化する。
実験結果から、キャリブレーションデータは、新しいデータなしでルーティング性能を効果的にブートストラップすることを示した。
関連論文リスト
- Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Efficient Deployment of Large Language Models on Resource-constrained Devices [12.644230479753476]
様々な下流タスクのために、リソース制約されたデバイス上でLLM(Large Language Models)を微調整する必要がある。
FedSpineは、PEFT(Efficient Fine-Tuning)と構造化プルーニングを組み合わせたフレームワークで、リソース制約のあるデバイスにLLMを効率的にデプロイする。
我々はFedSpineが1.4Times$$$timesで微調整を高速化し、最終的な精度を他のベースラインと比べて同じ間隔で0.4%-4.5%向上できることを示した。
論文 参考訳(メタデータ) (2025-01-05T04:38:11Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection [8.22737389683156]
大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。
LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。
以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。