Fugu-MT 論文翻訳(概要): Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches

論文の概要: Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches

arxiv url: http://arxiv.org/abs/2408.10691v2
Date: Tue, 1 Oct 2024 08:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 06:33:41.975070
Title: Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches
Title（参考訳）: エッジ上での大規模言語モデルの調整とデプロイ - 問題とアプローチ
Authors: Yanjie Dong, Haijun Zhang, Chengming Li, Song Guo, Victor C. M. Leung, Xiping Hu,
Abstract要約: 大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。 LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
参考スコア（独自算出の注目度）: 64.42735183056062
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since the invention of GPT2--1.5B in 2019, large language models (LLMs) have transitioned from specialized models to versatile foundation models. The LLMs exhibit impressive zero-shot ability, however, require fine-tuning on local datasets and significant resources for deployment. Traditional fine-tuning techniques with the first-order optimizers require substantial GPU memory that exceeds mainstream hardware capability. Therefore, memory-efficient methods are motivated to be investigated. Model compression techniques can reduce energy consumption, operational costs, and environmental impact so that to support sustainable artificial intelligence advancements. Additionally, large-scale foundation models have expanded to create images, audio, videos, and multi-modal contents, further emphasizing the need for efficient deployment. Therefore, we are motivated to present a comprehensive overview of the prevalent memory-efficient fine-tuning methods over the network edge. We also review the state-of-the-art literatures on model compression to provide a vision on deploying LLMs over the network edge.
Abstract（参考訳）: 2019年にGPT2-1.5Bが発明されて以来、大型言語モデル(LLM)は特殊モデルから汎用基盤モデルへと移行してきた。 LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。従来の1次オプティマイザによる微調整技術では、メインストリームのハードウェア能力を超える相当なGPUメモリが必要である。したがって、メモリ効率のよい手法が研究される。モデル圧縮技術は、持続可能な人工知能の進歩をサポートするために、エネルギー消費、運用コスト、環境への影響を減らすことができる。さらに、大規模なファンデーションモデルは、画像、オーディオ、ビデオ、マルチモーダルコンテンツを作成するために拡張され、より効率的なデプロイメントの必要性を強調している。そこで本研究では,ネットワークエッジ上でのメモリ効率の高い微調整手法の概要を概説する。また,ネットワークエッジ上にLLMをデプロイするビジョンを提供するため,モデル圧縮に関する最新の文献をレビューする。

関連論文リスト

MTGR: Industrial-Scale Generative Recommendation Framework in Meituan [28.92150571719811]
この問題に対処するためにMTGR(Meituan Generative Recommendation)を提案する。 MTGRはユーザレベルの圧縮によってトレーニングと推論の高速化を実現し、効率的なスケーリングを実現する。この突破口は世界最大のフードデリバリープラットフォームであるMeituanに配備された。
論文参考訳（メタデータ） (2025-05-24T11:47:28Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
Deploying Large AI Models on Resource-Limited Devices with Split Federated Learning [39.73152182572741]
本稿では、SFLAM(Quantized Split Federated Fine-Tuning Large AI Model)と呼ばれる新しいフレームワークを提案する。エッジデバイスとサーバ間のトレーニング負荷を分割することで、SFLAMはデバイス上の大規模なモデルの操作を容易にすることができる。 SFLAMは、トレーニング効率を高めるために、量子化管理、電力制御、帯域幅割り当て戦略を取り入れている。
論文参考訳（メタデータ） (2025-04-12T07:55:11Z)
SmolVLM: Redefining small and efficient multimodal models [8.849350918179752]
SmolVLMは、資源効率のよい推論のために特別に設計されたコンパクトなマルチモーダルモデルである。メモリフットプリントが最小限である画像およびビデオタスクにおいて,大幅なパフォーマンス向上をもたらす重要な設計選択を特定する。この結果から,戦略的アーキテクチャ最適化,積極的なトークン化,厳密なトレーニングデータによりマルチモーダル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2025-04-07T17:58:57Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge [3.1471494780647795]
最近の傾向はコンパクトモデル(典型的には量子化のような技術によって100億のパラメータが許容される)に注目が集まっていることを示している。このシフトは、エッジデバイス上でのLMの道を開き、プライバシーの強化、レイテンシの低減、データ主権の向上といった潜在的なメリットを提供する。本稿では,CPUベースおよびGPUアクセラレーションエッジデバイスにおけるジェネレーティブLM推論の総合評価を行う。
論文参考訳（メタデータ） (2025-03-12T07:01:34Z)
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文参考訳（メタデータ） (2025-01-23T02:14:08Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Dual-Model Distillation for Efficient Action Classification with Hybrid Edge-Cloud Solution [1.8029479474051309]
我々は、より大規模で正確なクラウドベースモデルに必要に応じて遅延しながら、より小さなモデルのローカル処理効率を活用するハイブリッドエッジクラウドソリューションを設計する。具体的には、エッジモデルの出力が不確かである場合に予測可能な軽量スイッチャーモデルをトレーニングするための、新しい教師なしデータ生成手法であるDual-Model Distillation(DMD)を提案する。動作分類タスクの実験結果から,我々のフレームワークは計算オーバーヘッドを少なくするだけでなく,大規模モデルのみを使用する場合と比較して精度も向上することが示された。
論文参考訳（メタデータ） (2024-10-16T02:06:27Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文参考訳（メタデータ） (2024-09-07T13:41:37Z)
Contemporary Model Compression on Large Language Models Inference [7.307436175842646]
大規模言語モデル(LLM)は、様々なタスクで最先端の結果を達成することによって、自然言語処理に革命をもたらした。 LLM推論の計算要求は、高いメモリ消費と遅い処理速度を含み、現実世界のアプリケーションにとって大きな課題となっている。本研究では, LLMのサイズと計算量を削減することにより, これらの課題に対処するモデル圧縮技術について検討する。
論文参考訳（メタデータ） (2024-09-03T15:35:01Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。 LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文参考訳（メタデータ） (2023-10-04T17:34:00Z)
Legal-Tech Open Diaries: Lesson learned on how to develop and deploy light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。 5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文参考訳（メタデータ） (2022-10-24T10:08:59Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。