論文の概要: Multimodal Data Augmentation for Image Captioning using Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.01855v1
- Date: Wed, 3 May 2023 01:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 16:09:50.804838
- Title: Multimodal Data Augmentation for Image Captioning using Diffusion Models
- Title(参考訳): 拡散モデルを用いた画像キャプションのためのマルチモーダルデータ拡張
- Authors: Changrong Xiao, Sean Xin Xu, Kunpeng Zhang
- Abstract要約: 本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
- 参考スコア(独自算出の注目度): 12.221685807426264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning, an important vision-language task, often requires a
tremendous number of finely labeled image-caption pairs for learning the
underlying alignment between images and texts. In this paper, we proposed a
multimodal data augmentation method, leveraging a recent text-to-image model
called Stable Diffusion, to expand the training set via high-quality generation
of image-caption pairs. Extensive experiments on the MS COCO dataset
demonstrate the advantages of our approach over several benchmark methods, and
particularly a significant boost when having fewer training instances. In
addition, models trained on our augmented datasets also outperform prior
unpaired image captioning methods by a large margin. Finally, further
improvement regarding the training efficiency and effectiveness can be obtained
after intentionally filtering the generated data based on quality assessment.
- Abstract(参考訳): 重要な視覚言語タスクである画像キャプションは、画像とテキストの基本的なアライメントを学ぶために、非常に多くの画像キャプチャペアを必要とします。
本稿では,最近のstable diffusionと呼ばれるテキスト対画像モデルを用いて,高品質な画像キャプチャペア生成によるトレーニングセットの拡張を行うマルチモーダルデータ拡張手法を提案する。
ms cocoデータセットに関する広範囲な実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点、特にトレーニングインスタンスが少ない場合の大幅な向上を示している。
さらに、我々の拡張データセットでトレーニングされたモデルは、未ペア画像キャプション手法よりも大きなマージンで優れている。
最後に、品質評価に基づいて生成したデータを意図的にフィルタリングした後、トレーニング効率と有効性に関するさらなる改善が得られる。
関連論文リスト
- Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。
我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。
提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文 参考訳(メタデータ) (2024-12-19T19:42:22Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Training on Thin Air: Improve Image Classification with Generated Data [28.96941414724037]
Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。
生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
論文 参考訳(メタデータ) (2023-05-24T16:33:02Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。