論文の概要: Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge
- arxiv url: http://arxiv.org/abs/2603.29535v1
- Date: Tue, 31 Mar 2026 10:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.539477
- Title: Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge
- Title(参考訳): エッジ上の複数LORAに基づく一対一生成視覚モデルを可能にする統一適応蒸留による量子化
- Authors: Sowmya Vajrala, Aakash Parmar, Prasanna R, Sravanth Kodavanti, Manjunath Arveti, Srinivas Soumitri Miriyala, Ashok Senapati,
- Abstract要約: 画像編集、オブジェクト削除、プロンプト誘導画像変換などのGenAI機能は、モバイルアプリケーションにますます統合されている。
既存のMobileデプロイメントパイプラインは通常、ローランドアダプタ毎に別々のモデルバイナリをコンパイルする。
単一共有モデルを用いて,エッジデバイス上でのマルチタスクGenAI推論を可能にする統一フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.632054706878866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Artificial Intelligence (GenAI) features such as image editing, object removal, and prompt-guided image transformation are increasingly integrated into mobile applications. However, deploying Large Vision Models (LVMs) for such tasks on resource-constrained devices remains challenging due to their high memory and compute requirements. While Low-Rank Adapters (LoRAs) enable parameter-efficient task adaptation, existing Mobile deployment pipelines typically compile separate model binaries for each LoRA + a copy of the foundation model, resulting in redundant storage and increased runtime overhead. In this work, we present a unified framework for enabling multi-task GenAI inference on edge devices using a single shared model. Our key idea is to treat LoRA weights as runtime inputs rather than embedding them into the compiled model graph, allowing dynamic task switching at runtime without recompilation. Then, to support efficient on-device execution, we introduce QUAD (Quantization with Unified Adaptive Distillation), a quantizationaware training strategy that aligns multiple LoRA adapters under a shared quantization profile. We implement the proposed system with a lightweight runtime stack compatible with mobile NPUs and evaluate it across multiple chipsets. Experimental results demonstrate up to 6x and 4x reduction in memory footprint and latency improvements, respectively, while maintaining high visual quality across multiple GenAI tasks.
- Abstract(参考訳): 画像編集、オブジェクト除去、プロンプト誘導画像変換といったジェネレーティブ人工知能(GenAI)機能は、モバイルアプリケーションにますます統合されている。
しかしながら、リソース制約のあるデバイスにそのようなタスクのためにLVM(Large Vision Models)をデプロイすることは、高いメモリと計算要求のため、依然として困難である。
Low-Rank Adapters (LoRA)はパラメータ効率のよいタスク適応を可能にするが、既存のMobileデプロイメントパイプラインは通常、LoRA毎に別々のモデルバイナリをコンパイルする。
本研究では,単一共有モデルを用いて,エッジデバイス上でのマルチタスクGenAI推論を可能にする統一フレームワークを提案する。
私たちのキーとなるアイデアは、LoRA重みをコンパイルされたモデルグラフに埋め込むのではなく、ランタイム入力として扱うことです。
次に、デバイス上での効率的な実行を支援するために、共有量子化プロファイルの下で複数のLoRAアダプタを整列させる量子化学習戦略であるQUID(Quantization with Unified Adaptive Distillation)を導入する。
提案システムは,モバイルNPUと互換性のある軽量ランタイムスタックで実装し,複数のチップセットで評価する。
実験結果は、メモリフットプリントの最大6倍と4倍の削減と、複数のGenAIタスクの視覚的品質を維持しながら、レイテンシの改善を示している。
関連論文リスト
- Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks [6.943057640797408]
Visual Perception Engine (VPEngine)は、開発者のアクセシビリティを維持しながら、視覚的マルチタスクのための効率的なGPU使用を可能にするために設計されたモジュラーフレームワークである。
我々のフレームワークアーキテクチャは、並列に実行される複数のタスク固有のモデルヘッド間で効率的に共有される画像表現を抽出する共有基盤モデルバックボーンを活用している。
実装例では、NVIDIA Jetson Orin AGX forRT最適化モデル上で、エンド・ツー・エンドのリアルタイム性能を$geq$50 Hzで示す。
論文 参考訳(メタデータ) (2025-08-15T16:42:23Z) - AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。
意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。
提案手法は画像生成のパーフェマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-04T06:36:00Z) - LoRAX: LoRA eXpandable Networks for Continual Synthetic Image Attribution [0.0]
完全再学習を必要とせずに、新しい生成画像モデルに適応するクラスインクリメンタルアルゴリズムであるLoRAXを提案する。
提案手法は,低ランク適応による連続学習タスク毎に,パラメータ効率が極めて高い特徴抽出器を訓練する。
LoRAXは、Continuous Deepfake Detectionベンチマークにおいて、最先端のクラスインクリメンタル学習アルゴリズムよりも優れているか、競争力がある。
論文 参考訳(メタデータ) (2025-04-10T22:20:00Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。