論文の概要: MultiWay-Adapater: Adapting large-scale multi-modal models for scalable
image-text retrieval
- arxiv url: http://arxiv.org/abs/2309.01516v3
- Date: Mon, 5 Feb 2024 22:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:27:39.815768
- Title: MultiWay-Adapater: Adapting large-scale multi-modal models for scalable
image-text retrieval
- Title(参考訳): MultiWay-Adapater:スケーラブルな画像テキスト検索のための大規模マルチモーダルモデルの適用
- Authors: Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
- Abstract要約: MultiWay-Adapter(MWA)は「アライメント・エンハンサー」を特徴とする新しいフレームワークである
このエンハンサーはモーダル間アライメントを深くし、最小のチューニング作業で高い転送性を実現する。
実験によると、従来の効率的なチューニングアプローチとは異なり、MWAはモデルの有効性を維持し、トレーニング時間を最大57%削減している。
- 参考スコア(独自算出の注目度): 4.4173427917548524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Multimodal Large Language Models (MLLMs) grow in size, adapting them to
specialized tasks becomes increasingly challenging due to high computational
and memory demands. Indeed, traditional fine-tuning methods are costly, due to
the need for extensive, task-specific training. While efficient adaptation
methods exist that aim to reduce these costs, in practice they suffer from
shallow inter-modal alignment, which severely hurts model effectiveness. To
tackle these computational challenges and improve inter-modal alignment, we
introduce the MultiWay-Adapter (MWA), a novel framework featuring an 'Alignment
Enhancer'. This enhancer deepens inter-modal alignment, enabling high
transferability with minimal tuning effort. Our experiments show that unlike
prior efficient tuning approaches, MWA maintains model effectiveness, while
reducing training time by up-to 57%. MWA is also lightweight, increasing model
size by only 2-3% (in terms of parameters) for state-of-the-art foundation
models like BEiT-3 Large. These results demonstrate that MWA provides an
efficient and effective adaptation method for MLLMs, significantly broadening
their applicability.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)のサイズが大きくなるにつれて、高い計算量とメモリ要求のため、特定のタスクに適応することがますます困難になる。
実際、タスク固有の広範囲なトレーニングが必要なため、従来の微調整手法はコストがかかる。
これらのコスト削減を目的とした効率的な適応手法は存在するが、実際にはモーダル間アライメントが浅く、モデルの有効性を著しく損なう。
これらの計算課題に対処し、モーダル間アライメントを改善するために、「アライメント・エンハンサー」を特徴とする新しいフレームワークであるMultiWay-Adapter(MWA)を導入する。
このエンハンサーはモーダル間アライメントを深くし、最小のチューニング作業で高い転送性を実現する。
実験の結果,従来の効率的なチューニング手法とは異なり,MWAはモデルの有効性を維持しつつ,トレーニング時間を最大57%削減できることがわかった。
MWAは軽量で、BEiT-3 Largeのような最先端の基盤モデルに対して、モデルサイズをわずか2-3%増加させる(パラメータの観点から)。
これらの結果から,MWAはMLLMの効率的かつ効果的な適応法であり,適用性を大幅に向上することが示された。
関連論文リスト
- AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - CROME: Cross-Modal Adapters for Efficient Multimodal LLM [28.337072921099494]
MLLM(Multimodal Large Language Models)は、画像言語機能を示す。
既存のアプローチは、しばしば高価な言語モデルの再訓練と限定的な適応性を必要とする。
本稿では,効率的な視覚言語命令チューニングフレームワークCROMEを提案する。
論文 参考訳(メタデータ) (2024-08-13T03:45:11Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。