論文の概要: Efficiently Deploying LLMs with Controlled Risk
- arxiv url: http://arxiv.org/abs/2410.02173v1
- Date: Thu, 3 Oct 2024 03:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:15:54.230687
- Title: Efficiently Deploying LLMs with Controlled Risk
- Title(参考訳): リスク制御によるLCMの効率的なデプロイ
- Authors: Michael J. Zellinger, Matt Thomson,
- Abstract要約: モデル内不確実性を利用してクエリをデリゲートする,階層型連鎖とマルチレベルアプテンション(HCMA)を提案する。
我々の枠組みは、効率とリスクの間に新たなトレードオフをもたらす。
- 参考スコア(独自算出の注目度): 0.9208007322096532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying large language models in production requires simultaneous attention to efficiency and risk control. Prior work has shown the possibility to cut costs while maintaining similar accuracy, but has neglected to focus on risk control. By contrast, here we present hierarchical chains with multi-level abstention (HCMA), which use model-intrinsic uncertainty to delegate queries along the LLM intelligence hierarchy, enabling training-free model switching based solely on black-box API calls. Our framework presents novel trade-offs between efficiency and risk. For example, deploying HCMA on MMLU cuts the error rate of Llama3 405B by 30% when the model is allowed to abstain on 20% of the queries. To calibrate HCMA for optimal performance, our approach uses data-efficient logistic regressions (based on a simple nonlinear feature transformation), which require only 50 or 100 labeled examples to achieve excellent calibration error (ECE), cutting ECE by 50% compared to naive Platt scaling. On free-form generation tasks, we find that chain-of-thought is ineffectual for selective prediction, whereas zero-shot prompting drives error to 0% on TruthfulQA at high abstention rates. As LLMs are increasingly deployed across computing environments with different capabilities (such as mobile, laptop, and cloud), our framework paves the way towards maintaining deployment efficiency while putting in place sharp risk controls.
- Abstract(参考訳): 大規模言語モデルを本番環境に展開するには、効率性とリスク管理に同時に注意する必要がある。
以前の研究は、同様の精度を維持しながらコストを削減する可能性を示しているが、リスク管理に焦点を合わせることは無視されている。
対照的に,マルチレベルアプテンション(HCMA)を持つ階層型連鎖は,モデル固有の不確実性を用いて,LCMインテリジェンス階層に沿ってクエリをデリゲートし,ブラックボックスAPIコールのみに基づくトレーニング不要なモデル切替を可能にする。
我々の枠組みは、効率とリスクの間に新たなトレードオフをもたらす。
例えば、MMLUにHCMAをデプロイすると、モデルがクエリの20%を停止すると、Llama3 405Bのエラー率が30%削減される。
HCMAを最適性能にキャリブレーションするには,50ないし100個のラベル付き例だけでよいデータ効率のロジスティック回帰(単純な非線形特徴変換に基づく)を用いる。
自由形式生成タスクでは、チェーン・オブ・シントは選択予測に不有効であるのに対し、ゼロショットプロンプトは高い禁断率でTrathfulQAにおいてエラーを0%まで駆動する。
LLMは、さまざまな機能(モバイル、ラップトップ、クラウドなど)を持つコンピューティング環境にまたがってデプロイされるようになっているため、当社のフレームワークは、鋭いリスクコントロールを配置しながら、デプロイメント効率を維持するための道を開いたのです。
関連論文リスト
- Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Speculative Coreset Selection for Task-Specific Fine-tuning [35.15159197063161]
タスク固有の微調整は、大規模言語モデル(LLM)の展開に不可欠である
本稿では,投機的コアセット選択法であるSTAFFを紹介する。
STAFFは,SOTA法の性能を最大54.3%向上し,選択オーバーヘッドを70.5%低減することを示した。
論文 参考訳(メタデータ) (2024-10-02T07:42:25Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。