論文の概要: V-LoRA: An Efficient and Flexible System Boosts Vision Applications with LoRA LMM
- arxiv url: http://arxiv.org/abs/2411.00915v1
- Date: Fri, 01 Nov 2024 13:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:22.471797
- Title: V-LoRA: An Efficient and Flexible System Boosts Vision Applications with LoRA LMM
- Title(参考訳): V-LoRA: 効率的なフレキシブルなシステムがLoRA LMMによるビジョンアプリケーションを強化
- Authors: Liang Mi, Weijun Wang, Wenming Tu, Qingfeng He, Rui Kong, Xinyu Fang, Yazhu Dong, Yikang Zhang, Yunchun Li, Meng Li, Haipeng Dai, Guihai Chen, Yunxin Liu,
- Abstract要約: 低ランク適応(LoRA)は、外部知識を大規模言語モデル(LMM)に統合する有望な方法を提供する
既存のLoRAモデルは計算コストが大きすぎるため、非常にレイテンシが高い。
多様なビジョンタスクの強化とLoRA LMMによるビジョンアプリケーション強化を目的としたエンドツーエンドソリューションを提案する。
- 参考スコア(独自算出の注目度): 32.37720746437661
- License:
- Abstract: Large Multimodal Models (LMMs) have shown significant progress in various complex vision tasks with the solid linguistic and reasoning capacity inherited from large language models (LMMs). Low-rank adaptation (LoRA) offers a promising method to integrate external knowledge into LMMs, compensating for their limitations on domain-specific tasks. However, the existing LoRA model serving is excessively computationally expensive and causes extremely high latency. In this paper, we present an end-to-end solution that empowers diverse vision tasks and enriches vision applications with LoRA LMMs. Our system, VaLoRA, enables accurate and efficient vision tasks by 1) an accuracy-aware LoRA adapter generation approach that generates LoRA adapters rich in domain-specific knowledge to meet application-specific accuracy requirements, 2) an adaptive-tiling LoRA adapters batching operator that efficiently computes concurrent heterogeneous LoRA adapters, and 3) a flexible LoRA adapter orchestration mechanism that manages application requests and LoRA adapters to achieve the lowest average response latency. We prototype VaLoRA on five popular vision tasks on three LMMs. Experiment results reveal that VaLoRA improves 24-62% of the accuracy compared to the original LMMs and reduces 20-89% of the latency compared to the state-of-the-art LoRA model serving systems.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は,多言語モデル(LMM)から受け継がれた言語的・推論能力を備えた複雑な視覚タスクにおいて,大きな進歩を示している。
低ランク適応(LoRA)は、外部知識をLMMに統合し、ドメイン固有のタスクに対する制限を補償する有望な方法を提供する。
しかし、既存のLoRAモデルでは計算コストが極端に高く、非常にレイテンシが高い。
本稿では,多様な視覚タスクを向上し,LORA LMMを用いた視覚アプリケーションを強化するエンド・ツー・エンドのソリューションを提案する。
我々のシステムであるVaLoRAは、正確かつ効率的な視覚タスクを実現する。
1)アプリケーション固有の精度要件を満たすために,ドメイン固有の知識に富んだLoRAアダプタを生成する,精度の高いLoRAアダプタ生成アプローチ。
2) 並列異種LoRAアダプタを効率よく計算する適応型LoRAアダプタバッチ演算子,
3) アプリケーションリクエストとLoRAアダプタを管理する柔軟なLoRAアダプタオーケストレーション機構で、最低平均レスポンスレイテンシを実現する。
3つのLMM上の5つの一般的な視覚タスクでVaLoRAを試作した。
実験結果から,VaLoRAは従来のLMMと比較して24~62%の精度向上を実現し,最先端のLoRAモデルサービスシステムに比べて20~89%のレイテンシ低減を実現していることがわかった。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models [4.978361907192563]
MeteoRAはスケーラブルで効率的なフレームワークで、複数のタスク固有のLoRAアダプタをベースLLMに再利用する。
MeteoRAは複合タスクの処理において優れた性能を実現し、単一の推論パスで10のシーケンシャルな問題を効果的に解決する。
論文 参考訳(メタデータ) (2024-05-19T20:46:07Z) - LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report [3.304521604464247]
ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。
大規模言語モデル(LLM)の効率的な微細チューニング(PEFT)
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
論文 参考訳(メタデータ) (2024-04-29T04:01:45Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - Accurate LoRA-Finetuning Quantization of LLMs via Information Retention [21.925671783061542]
本稿では,LoRAを用いて量子化LLMを情報保持により高精度にプッシュする新しいIR-QLoRAを提案する。
実験の結果、IR-QLoRA は LLaMA と LLaMA2 の2-4ビット幅での精度を大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2024-02-08T06:53:31Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。