論文の概要: FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning
- arxiv url: http://arxiv.org/abs/2404.15182v1
- Date: Fri, 12 Apr 2024 00:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-28 11:16:37.564334
- Title: FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning
- Title(参考訳): FLoRA:パラメータ効率のよいフェデレーション学習によるビジョンランゲージモデルの実現
- Authors: Duy Phuong Nguyen, J. Pablo Munoz, Ali Jannesari,
- Abstract要約: 視覚と言語を視覚言語モデル(VLM)に統合するマルチモーダルモデル
本稿では,VLMの学習にフェデレートラーニングとパラメータ効率のよいアダプタを利用する新しい手法を提案する。
我々のアプローチでは、トレーニング時間を最大34.72倍に短縮し、完全な微調整よりも2.47倍のメモリ使用量を必要とする。
- 参考スコア(独自算出の注目度): 6.648544684097181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving field of artificial intelligence, multimodal models, e.g., integrating vision and language into visual-language models (VLMs), have become pivotal for many applications, ranging from image captioning to multimodal search engines. Among these models, the Contrastive Language-Image Pre-training (CLIP) model has demonstrated remarkable performance in understanding and generating nuanced relationships between text and images. However, the conventional training of such models often requires centralized aggregation of vast datasets, posing significant privacy and data governance challenges. To address these concerns, this paper proposes a novel approach that leverages Federated Learning and parameter-efficient adapters, i.e., Low-Rank Adaptation (LoRA), to train VLMs. This methodology preserves data privacy by training models across decentralized data sources and ensures model adaptability and efficiency through LoRA's parameter-efficient fine-tuning. Our approach accelerates training time by up to 34.72 times and requires 2.47 times less memory usage than full fine-tuning.
- Abstract(参考訳): 人工知能の分野では、視覚と言語を視覚言語モデル(VLM)に統合するマルチモーダルモデルが、画像キャプションからマルチモーダル検索エンジンまで、多くのアプリケーションにおいて重要な存在となっている。
これらのモデルの中で、Contrastive Language-Image Pre-Training (CLIP) モデルは、テキストと画像間のニュアンスな関係を理解し、生成する際、顕著な性能を示した。
しかしながら、そのようなモデルの従来のトレーニングでは、大規模なデータセットを集中的に集約する必要があることが多く、重要なプライバシとデータガバナンスの課題を提起する。
これらの問題に対処するために,フェデレートラーニングとパラメータ効率のよいアダプタ,すなわちローランド適応(LoRA)を活用してVLMを訓練する手法を提案する。
この方法論は、分散化されたデータソース間でモデルをトレーニングすることでデータのプライバシを保護し、LoRAのパラメータ効率の良い微調整を通じてモデルの適応性と効率を確保する。
我々のアプローチでは、トレーニング時間を最大34.72倍に短縮し、完全な微調整よりも2.47倍のメモリ使用量を必要とする。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Promoting Data and Model Privacy in Federated Learning through Quantized LoRA [41.81020951061438]
トレーニング中にモデルのパラメータの量子化されたバージョンを配布するだけでよい方法を紹介します。
我々は、この量子化戦略を、人気かつパラメータ効率の良い微調整法であるLoRAと組み合わせて、フェデレート学習における通信コストを大幅に削減する。
提案したフレームワークはtextscFedLPP と呼ばれ、フェデレートされた学習コンテキストにおけるデータとモデルのプライバシの両立を実現している。
論文 参考訳(メタデータ) (2024-06-16T15:23:07Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Dynamic Sampling and Selective Masking for Communication-Efficient
Federated Learning [11.511755449420253]
Federated Learning(FL)は、デバイス上のインテリジェンスを分散トレーニングとフェデレーション最適化を通じて実現する、新しい機械学習環境である。
本稿では,動的サンプリングによる通信効率向上のための2つのアプローチと,トップ$k選択マスキングを提案する。
論文 参考訳(メタデータ) (2020-03-21T08:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。