論文の概要: Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches
- arxiv url: http://arxiv.org/abs/2408.10691v3
- Date: Wed, 06 Aug 2025 03:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.262733
- Title: Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches
- Title(参考訳): エッジ上での大規模言語モデルの調整とデプロイ - 問題とアプローチ
- Authors: Yanjie Dong, Haijun Zhang, Chengming Li, Song Guo, Victor C. M. Leung, Xiping Hu,
- Abstract要約: 大規模言語モデル(LLM)は、専門的な深層モデルから汎用的な基礎モデルへと進化してきた。
LLMは、ローカルデータセットの微調整と、ネットワークエッジ上のデプロイメントのためのかなりのメモリを必要とする。
LLMは、画像、オーディオ、ビデオ、マルチモーダルコンテンツを作成するために、テキスト生成を超えて拡張されている。
LLMの持続的成長を支援するため,モデル微調整およびモデル圧縮技術が開発されている。
- 参考スコア(独自算出の注目度): 64.42735183056062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the release of GPT2-1.5B in 2019, the large language models (LLMs) have evolved from specialized deep models to versatile foundation models. While demonstrating remarkable zero-shot ability, the LLMs still require fine-tuning on local datasets and substantial memory for deployment over the network edges. Traditional first-order fine-tuning techniques require significant GPU memory that exceeds the capacity of mainstream hardware. Besides, the LLMs have been expanded beyond text generation to create images, audio, video, and multi-modal content, necessitating careful investigation of efficient deployment strategies for large-scale foundation models. In response to these challenges, model fine-tuning and model-compression techniques have been developed to support the sustainable growth of LLMs by reducing both operational and capital expenditures. In this work, we provide a comprehensive overview of prevalent memory-efficient fine-tuning methods for deployment at the network edge. We also review state-of-the-art literature on model compression, offering insights into the deployment of LLMs at network edges.
- Abstract(参考訳): 2019年にGPT2-1.5Bがリリースされて以来、大きな言語モデル(LLM)は、専門的なディープモデルから汎用的な基礎モデルへと進化してきた。
目覚ましいゼロショット能力を示す一方で、LLMはローカルデータセットを微調整し、ネットワークエッジにデプロイするためにかなりのメモリを必要とする。
従来の1次微調整技術は、メインストリームハードウェアの容量を超える大きなGPUメモリを必要とする。
さらに、LLMは、画像、オーディオ、ビデオ、マルチモーダルコンテンツを作成するためにテキスト生成を超えて拡張されており、大規模基盤モデルの効率的なデプロイメント戦略を慎重に調査する必要がある。
これらの課題に対して, LLMの持続的成長を支援するため, 運用・資本支出の両面を削減し, モデル微調整およびモデル圧縮技術を開発した。
本稿では,ネットワークエッジに展開するメモリ効率の高い微調整手法について概説する。
また、モデル圧縮に関する最先端の文献をレビューし、LLMのネットワークエッジへの展開に関する洞察を提供する。
関連論文リスト
- MTGR: Industrial-Scale Generative Recommendation Framework in Meituan [28.92150571719811]
この問題に対処するためにMTGR(Meituan Generative Recommendation)を提案する。
MTGRはユーザレベルの圧縮によってトレーニングと推論の高速化を実現し、効率的なスケーリングを実現する。
この突破口は世界最大のフードデリバリープラットフォームであるMeituanに配備された。
論文 参考訳(メタデータ) (2025-05-24T11:47:28Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Deploying Large AI Models on Resource-Limited Devices with Split Federated Learning [39.73152182572741]
本稿では、SFLAM(Quantized Split Federated Fine-Tuning Large AI Model)と呼ばれる新しいフレームワークを提案する。
エッジデバイスとサーバ間のトレーニング負荷を分割することで、SFLAMはデバイス上の大規模なモデルの操作を容易にすることができる。
SFLAMは、トレーニング効率を高めるために、量子化管理、電力制御、帯域幅割り当て戦略を取り入れている。
論文 参考訳(メタデータ) (2025-04-12T07:55:11Z) - SmolVLM: Redefining small and efficient multimodal models [8.849350918179752]
SmolVLMは、資源効率のよい推論のために特別に設計されたコンパクトなマルチモーダルモデルである。
メモリフットプリントが最小限である画像およびビデオタスクにおいて,大幅なパフォーマンス向上をもたらす重要な設計選択を特定する。
この結果から,戦略的アーキテクチャ最適化,積極的なトークン化,厳密なトレーニングデータによりマルチモーダル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-07T17:58:57Z) - PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。
評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-03-15T15:11:17Z) - Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge [3.1471494780647795]
最近の傾向はコンパクトモデル(典型的には量子化のような技術によって100億のパラメータが許容される)に注目が集まっていることを示している。
このシフトは、エッジデバイス上でのLMの道を開き、プライバシーの強化、レイテンシの低減、データ主権の向上といった潜在的なメリットを提供する。
本稿では,CPUベースおよびGPUアクセラレーションエッジデバイスにおけるジェネレーティブLM推論の総合評価を行う。
論文 参考訳(メタデータ) (2025-03-12T07:01:34Z) - Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。
低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。
本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文 参考訳(メタデータ) (2025-01-23T02:14:08Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Dual-Model Distillation for Efficient Action Classification with Hybrid Edge-Cloud Solution [1.8029479474051309]
我々は、より大規模で正確なクラウドベースモデルに必要に応じて遅延しながら、より小さなモデルのローカル処理効率を活用するハイブリッドエッジクラウドソリューションを設計する。
具体的には、エッジモデルの出力が不確かである場合に予測可能な軽量スイッチャーモデルをトレーニングするための、新しい教師なしデータ生成手法であるDual-Model Distillation(DMD)を提案する。
動作分類タスクの実験結果から,我々のフレームワークは計算オーバーヘッドを少なくするだけでなく,大規模モデルのみを使用する場合と比較して精度も向上することが示された。
論文 参考訳(メタデータ) (2024-10-16T02:06:27Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Contemporary Model Compression on Large Language Models Inference [7.307436175842646]
大規模言語モデル(LLM)は、様々なタスクで最先端の結果を達成することによって、自然言語処理に革命をもたらした。
LLM推論の計算要求は、高いメモリ消費と遅い処理速度を含み、現実世界のアプリケーションにとって大きな課題となっている。
本研究では, LLMのサイズと計算量を削減することにより, これらの課題に対処するモデル圧縮技術について検討する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。