論文の概要: Crayon: Customized On-Device LLM via Instant Adapter Blending and Edge-Server Hybrid Inference
- arxiv url: http://arxiv.org/abs/2406.07007v1
- Date: Tue, 11 Jun 2024 07:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 17:13:54.214204
- Title: Crayon: Customized On-Device LLM via Instant Adapter Blending and Edge-Server Hybrid Inference
- Title(参考訳): Crayon: Instant Adapter BlendingとEdge-Server Hybrid Inferenceによるオンデバイス LLM のカスタマイズ
- Authors: Jihwan Bang, Juntae Lee, Kyuhong Shim, Seunghan Yang, Simyung Chang,
- Abstract要約: オンデバイス LLM カスタマイズのための新しいアプローチである Crayon を提案する。
我々は,より要求の多いクエリや非カスタマイズタスクをサーバ上のより大きな,より有能なLDMに確実に割り当てるデバイスサーバハイブリッド推論戦略を開発する。
- 参考スコア(独自算出の注目度): 20.666893617591136
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The customization of large language models (LLMs) for user-specified tasks gets important. However, maintaining all the customized LLMs on cloud servers incurs substantial memory and computational overheads, and uploading user data can also lead to privacy concerns. On-device LLMs can offer a promising solution by mitigating these issues. Yet, the performance of on-device LLMs is inherently constrained by the limitations of small-scaled models. To overcome these restrictions, we first propose Crayon, a novel approach for on-device LLM customization. Crayon begins by constructing a pool of diverse base adapters, and then we instantly blend them into a customized adapter without extra training. In addition, we develop a device-server hybrid inference strategy, which deftly allocates more demanding queries or non-customized tasks to a larger, more capable LLM on a server. This ensures optimal performance without sacrificing the benefits of on-device customization. We carefully craft a novel benchmark from multiple question-answer datasets, and show the efficacy of our method in the LLM customization.
- Abstract(参考訳): ユーザ指定タスクに対する大規模言語モデル(LLM)のカスタマイズが重要になる。
しかしながら、クラウドサーバ上でカスタマイズされたLLMをすべて維持することは、メモリと計算上のオーバーヘッドを大幅に増加させ、ユーザデータをアップロードしてもプライバシー上の懸念につながる可能性がある。
オンデバイスLSMは、これらの問題を緩和することで、有望なソリューションを提供することができる。
しかし、オンデバイスLCMの性能は、小規模モデルの限界によって本質的に制限されている。
これらの制約を克服するために、私たちはまず、デバイス上でのLCMカスタマイズのための新しいアプローチであるCryonを提案する。
Crayonはまず、多様なベースアダプタのプールを構築し、その後すぐにそれを、余分なトレーニングなしでカスタマイズされたアダプタにブレンドします。
さらに、より要求の多いクエリや非カスタマイズタスクをサーバ上のより大きな、より有能なLCMに確実に割り当てるデバイスサーバハイブリッド推論戦略を開発する。
これにより、デバイス上のカスタマイズのメリットを犠牲にすることなく、最適なパフォーマンスが保証される。
複数の質問応答データセットから新しいベンチマークを慎重に作成し,LLMのカスタマイズにおける手法の有効性を示す。
関連論文リスト
- ELMS: Elasticized Large Language Models On Mobile Devices [5.689405542579458]
デバイス上の大規模言語モデル(LLM)は、プライバシー問題に対処しながら、UI自動化などのアプリケーションを可能にする、モバイルAIに革命をもたらしている。
ELMSは、モデルとプロンプト次元の両方で弾力性を提供するように設計されたデバイス上でのLCMサービスである。
トランスモデルに固有の置換整合性を利用して高品質で柔軟なサブモデルを作成するワンタイムリオーダーニューロニング技術。
プロンプトを効率的に洗練し、モデルプロンプト間の弾性適応をコーディネートするデュアルヘッドコンパクト言語モデル。
論文 参考訳(メタデータ) (2024-09-08T06:32:08Z) - Mobile Edge Intelligence for Large Language Models: A Contemporary Survey [32.22789677882933]
モバイルエッジインテリジェンス(MEI)は、クラウドコンピューティングに対するプライバシとレイテンシを改善した、モバイルネットワークのエッジ内のAI機能を提供する。
MEIはデバイス上のAIとクラウドベースのAIの間に位置し、無線通信とエンドユーザよりも強力なコンピューティングリソースを備えている。
本稿では,LLMのMEI活用に関する現代の調査を紹介する。
論文 参考訳(メタデータ) (2024-07-09T13:47:05Z) - FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。
多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。
我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T16:45:47Z) - Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices [32.61693246340064]
資源制約のある計算環境がパーソナライズされたLLMの設計選択にどのように影響するかを検討する。
いくつかの重要な設計要因のトレードオフと、学習効率と正確性に対するそれらの相互干渉の影響を考察する。
論文 参考訳(メタデータ) (2024-06-06T06:41:53Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models [21.864109456867784]
多くの下流タスクでは、プライベートデータを使用して大きな言語モデル(LLM)を微調整する必要がある。
我々はFedPipeという自動フェデレーションパイプラインを提案し、最小のトレーニングコストでLLMを微調整する。
大規模な実験では、FedPipeがモデルのトレーニングを高速化し、最先端のベンチマークよりも高い精度を達成することが示されている。
論文 参考訳(メタデータ) (2024-04-09T16:50:30Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。