論文の概要: MultiWay-Adapater: Adapting large-scale multi-modal models for scalable
image-text retrieval
- arxiv url: http://arxiv.org/abs/2309.01516v2
- Date: Tue, 12 Sep 2023 20:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 16:59:23.250720
- Title: MultiWay-Adapater: Adapting large-scale multi-modal models for scalable
image-text retrieval
- Title(参考訳): MultiWay-Adapater:スケーラブルな画像テキスト検索のための大規模マルチモーダルモデルの適用
- Authors: Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
- Abstract要約: モーダルアライメントの深化を図るために'アライメント・エンハンサー'を組み込んだ,革新的なフレームワークであるMultiway-Adapterを紹介する。
提案手法はLMMに1.25%未満の追加パラメータを追加し,事前訓練されたパラメータを調整せずに高い転送性を実現する。
これにより、完全な微調整モデルに比べてゼロショット画像テキスト検索性能が向上し、最大57%の微調整時間を短縮できる。
- 参考スコア(独自算出の注目度): 4.4173427917548524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As the size of Large Multi-Modal Models (LMMs) increases consistently, the
adaptation of these pre-trained models to specialized tasks has become a
computationally and memory-intensive challenge. Traditional fine-tuning methods
require isolated, exhaustive retuning for each new task, limiting the models'
versatility. Moreover, current efficient adaptation techniques often overlook
modality alignment, focusing only on the knowledge extraction of new tasks. To
tackle these issues, we introduce Multiway-Adapter, an innovative framework
incorporating an 'Alignment Enhancer' to deepen modality alignment, enabling
high transferability without tuning pre-trained parameters. Our method adds
fewer than 1.25\% of additional parameters to LMMs, exemplified by the BEiT-3
model in our study. This leads to superior zero-shot image-text retrieval
performance compared to fully fine-tuned models, while achieving up to a 57\%
reduction in fine-tuning time. Our approach offers a resource-efficient and
effective adaptation pathway for LMMs, broadening their applicability. The
source code is publicly available at:
\url{https://github.com/longkukuhi/MultiWay-Adapter}.
- Abstract(参考訳): LMM(Large Multi-Modal Models)のサイズが一貫して大きくなるにつれて、これらの事前学習されたモデルの特殊タスクへの適応は、計算的かつメモリ集約的な課題となっている。
従来の微調整手法では、新しいタスクごとに分離された徹底的な修正が必要であり、モデルの汎用性を制限する。
さらに、現在の効率的な適応手法は、新しいタスクの知識抽出にのみ焦点をあてて、しばしばモダリティアライメントを見落としている。
そこで本稿では,モダリティアライメントを深めるために,'alignment enhancer'を組み込んだ革新的なフレームワークであるmultiway-adapterを紹介し,事前学習パラメータをチューニングせずに高い転送性を実現する。
本手法では, BEiT-3 モデルを用いて, LMM に1.25 % 未満の追加パラメータを付加する。
これにより、完全な微調整モデルと比較してゼロショット画像テキスト検索性能が向上し、57\%の微調整時間が短縮される。
提案手法は, LMMの資源効率, 有効適応経路を提供し, 適用範囲を拡大する。
ソースコードは: \url{https://github.com/longkukuhi/MultiWay-Adapter} で公開されている。
関連論文リスト
- AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - CROME: Cross-Modal Adapters for Efficient Multimodal LLM [28.337072921099494]
MLLM(Multimodal Large Language Models)は、画像言語機能を示す。
既存のアプローチは、しばしば高価な言語モデルの再訓練と限定的な適応性を必要とする。
本稿では,効率的な視覚言語命令チューニングフレームワークCROMEを提案する。
論文 参考訳(メタデータ) (2024-08-13T03:45:11Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。