論文の概要: FLAME: Frozen Large Language Models Enable Data-Efficient Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2411.11927v1
- Date: Mon, 18 Nov 2024 09:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:49.556872
- Title: FLAME: Frozen Large Language Models Enable Data-Efficient Language-Image Pre-training
- Title(参考訳): FLAME:データ効率の良い言語画像事前学習を可能にする冷凍型大規模言語モデル
- Authors: Anjia Cao, Xing Wei, Zhiheng Ma,
- Abstract要約: 言語イメージの事前学習は、特定のフォーマットの限られたデータと、テキストエンコーダの制約された容量のために、重大な課題に直面している。
我々は,凍結した大言語モデルをテキストエンコーダとして利用するFLAME (Frozen Large lAnguage Models Enable data- efficient language-image pre-training)を提案する。
FLAMEは,1)長いキャプションから多様な意味表現を抽出する多面的急速蒸留技術,2)オフライン埋め込み戦略を補完する顔分離型アテンション機構である。
- 参考スコア(独自算出の注目度): 21.372374962328948
- License:
- Abstract: Language-image pre-training faces significant challenges due to limited data in specific formats and the constrained capacities of text encoders. While prevailing methods attempt to address these issues through data augmentation and architecture modifications, they continue to struggle with processing long-form text inputs, and the inherent limitations of traditional CLIP text encoders lead to suboptimal downstream generalization. In this paper, we propose FLAME (Frozen Large lAnguage Models Enable data-efficient language-image pre-training) that leverages frozen large language models as text encoders, naturally processing long text inputs and demonstrating impressive multilingual generalization. FLAME comprises two key components: 1) a multifaceted prompt distillation technique for extracting diverse semantic representations from long captions, which better aligns with the multifaceted nature of images, and 2) a facet-decoupled attention mechanism, complemented by an offline embedding strategy, to ensure efficient computation. Extensive empirical evaluations demonstrate FLAME's superior performance. When trained on CC3M, FLAME surpasses the previous state-of-the-art by 4.9\% in ImageNet top-1 accuracy. On YFCC15M, FLAME surpasses the WIT-400M-trained CLIP by 44.4\% in average image-to-text recall@1 across 36 languages, and by 34.6\% in text-to-image recall@1 for long-context retrieval on Urban-1k. Code is available at \url{https://github.com/MIV-XJTU/FLAME}.
- Abstract(参考訳): 言語イメージの事前学習は、特定のフォーマットの限られたデータと、テキストエンコーダの制約された容量のために、重大な課題に直面している。
一般的な手法は、データ拡張とアーキテクチャ修正によってこれらの問題に対処しようとするが、長文入力の処理に苦慮し続けており、従来のCLIPテキストエンコーダ固有の制限は、下流の最適化に繋がる。
本稿では,Frozen Large lAnguage Models Enable data- efficient language-image pre-training (FLAME)を提案する。
FLAMEは2つのキーコンポーネントから構成される。
1 画像の多面的性質に整合した長いキャプションから多面的表現を抽出する多面的迅速蒸留技術
2) オフライン埋め込み戦略を補完するファセット分離型アテンション機構により, 効率的な計算を実現する。
広範な経験的評価はFLAMEの優れた性能を示している。
CC3Mでトレーニングすると、FLAMEは以前の最先端を4.9倍の精度で上回っている。
YFCC15Mでは、FLAMEはWIT-400Mで訓練されたCLIPを平均44.4 %、36言語で平均44.6 %、Urban-1kでの長文検索では34.6 %で上回っている。
コードは \url{https://github.com/MIV-XJTU/FLAME} で公開されている。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Data-Efficient Language-Supervised Zero-Shot Learning with
Self-Distillation [23.631184498984933]
自然言語は、監督された「ゴールド」ラベルよりも広く、より豊かな監督源であることが示されている。
ソフトラベルを用いてノイズの多い画像とテキストのペアから学習する,データ効率の高いコントラスト蒸留法を提案する。
我々のモデルは事前訓練された画像と文エンコーダから知識を伝達し,CLIPよりも133倍小さい3M画像テキストペアで高い性能を達成する。
論文 参考訳(メタデータ) (2021-04-18T19:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。