論文の概要: Joint Adaptive Representations for Image-Language Learning
- arxiv url: http://arxiv.org/abs/2305.19924v2
- Date: Thu, 1 Jun 2023 12:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 10:49:04.089799
- Title: Joint Adaptive Representations for Image-Language Learning
- Title(参考訳): 画像言語学習のための共同適応表現
- Authors: AJ Piergiovanni and Anelia Angelova
- Abstract要約: 画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
- 参考スコア(独自算出の注目度): 59.40890927221377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-language learning has made unprecedented progress in visual
understanding. These developments have come at high costs, as contemporary
vision-language models require large model scales and amounts of data. We here
propose a much easier recipe for image-language learning, which produces
effective models, outperforming bigger and more expensive ones, often trained
on orders of magnitude larger datasets. Our key finding is the joint learning
of a compact vision and language representation, which adaptively and
iteratively fuses the multi-modal features. This results in a more effective
image-language learning, greatly lowering the FLOPs by combining and reducing
the number of tokens for both text and images, e.g. a 33\% reduction in FLOPs
is achieved, compared to baseline fusion techniques used by popular
image-language models, while improving performance. This also allows the model
to scale without a large increase in FLOPs or memory. In addition, we propose
adaptive pre-training data sampling which improves the data efficiency. The
proposed approach achieves competitive performance compared to much larger
models, and does so with significantly less data and FLOPs. With only 40M
training examples and with 39 GFLOPs our lightweight model outperforms many
times larger state-of-the-art models of 2-20x more FLOPs and using bigger
datasets some of which with close to 1B training examples.
- Abstract(参考訳): 画像言語学習は視覚的理解において前例のない進歩を遂げた。
現代の視覚言語モデルは大規模なモデルスケールと大量のデータを必要とするため、これらの開発はコストが高い。
ここでは、画像言語学習のより簡単なレシピを提案し、効果的モデルを生成し、より大きくて高価なものより優れ、しばしば桁違いに大きなデータセットで訓練される。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
これにより、一般的な画像言語モデルで使用されるベースライン融合技術に比べて、テキストと画像のトークン数を33\%削減するなど、テキストと画像のトークン数を組み合わせることで、フロップを大幅に削減する、より効果的な画像言語学習が可能になる。
これにより、FLOPやメモリを大きく増やすことなくモデルをスケールすることができる。
さらに,データ効率を向上させる適応型事前学習データサンプリングを提案する。
提案手法は,より大規模なモデルと比較して競争性能が向上し,データとFLOPが大幅に減少する。
わずか40万のトレーニングサンプルと39gflopsの軽量モデルでは、最先端モデルの数倍の2~20倍のフロップと、1bのトレーニングサンプルを持つ大きなデータセットを使用しています。
関連論文リスト
- Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and
Image Embeddings [16.90107647942174]
高品質な人ラベル画像キャプチャーデータセットの作成は、視覚言語モデル(VLM)の開発において大きなボトルネックとなる。
本稿では,Large Language Models(LLMs)と画像生成モデルの強みを活用して,効率的なVLM学習のための合成画像テキストペアを作成する手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [57.56695651370155]
我々は、コンシューマハードウェア上で、数百万のトレーニング例を使用して、最初の多言語ビジョン-LLMであるmBLIPを提示する。
我々は視覚と言語を混合したタスクから多言語データを活用し、機械翻訳による高品質な英語データを95言語に翻訳する。
IGLUEベンチマークでは、mBLIPは最先端のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image
Diffusion Models [6.821399706256863]
W"urstchen"は、競争性能と前例のない費用対効果を組み合わせたテキスト対画像合成の新しいアーキテクチャである。
我々の研究の重要な貢献は、詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。
論文 参考訳(メタデータ) (2023-06-01T13:00:53Z) - LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive
Prompt-Based Few-Shot Fine-Tuning [7.543506531838883]
本稿では,言語モデルの微調整手法であるLM-CPPFを提案する。
複数のテキスト分類ベンチマーク実験により, この拡張法が他の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-29T15:59:51Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。