論文の概要: Image Captioning with Multi-Context Synthetic Data
- arxiv url: http://arxiv.org/abs/2305.18072v2
- Date: Tue, 19 Dec 2023 14:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 02:17:51.352828
- Title: Image Captioning with Multi-Context Synthetic Data
- Title(参考訳): マルチコンテキスト合成データによる画像キャプション
- Authors: Feipeng Ma, Yizhou Zhou, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun
- Abstract要約: 大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
- 参考スコア(独自算出の注目度): 16.961112970612447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning requires numerous annotated image-text pairs, resulting in
substantial annotation costs. Recently, large models (e.g. diffusion models and
large language models) have excelled in producing high-quality images and text.
This potential can be harnessed to create synthetic image-text pairs for
training captioning models. Synthetic data can improve cost and time efficiency
in data collection, allow for customization to specific domains, bootstrap
generalization capability for zero-shot performance, and circumvent privacy
concerns associated with real-world data. However, existing methods struggle to
attain satisfactory performance solely through synthetic data. We identify the
issue as generated images from simple descriptions mostly capture a solitary
perspective with limited context, failing to align with the intricate scenes
prevalent in real-world imagery. To tackle this, we present an innovative
pipeline that introduces multi-context data generation. Beginning with an
initial text corpus, our approach employs a large language model to extract
multiple sentences portraying the same scene from diverse viewpoints. These
sentences are then condensed into a single sentence with multiple contexts.
Subsequently, we generate intricate images using the condensed captions through
diffusion models. Our model is exclusively trained on synthetic image-text
pairs crafted through this process. The effectiveness of our pipeline is
validated through experimental results in both the in-domain and cross-domain
settings, where it achieves state-of-the-art performance on well-known datasets
such as MSCOCO, Flickr30k, and NoCaps.
- Abstract(参考訳): 画像キャプションは多くの注釈付き画像テキストペアを必要とするため、かなりのアノテーションコストがかかる。
近年、大きなモデル(拡散モデルや大きな言語モデルなど)は高品質な画像やテキストの作成に長けている。
このポテンシャルを利用して、キャプションモデルをトレーニングするための合成画像テキストペアを作成することができる。
合成データは、データ収集のコストと時間効率の改善、特定のドメインのカスタマイズ、ゼロショットパフォーマンスのブートストラップ一般化機能、現実世界のデータに関連するプライバシー問題を回避することができる。
しかし,既存の手法は,合成データのみで満足な性能を得るのに苦労している。
単純な記述から生成された画像として問題を特定し,実世界のイメージに多く見られる複雑なシーンと一致しない,限定的なコンテキストで孤立した視点を捉えている。
そこで本研究では,マルチコンテキストデータ生成を実現する革新的なパイプラインを提案する。
最初のテキストコーパスから始めると、様々な視点から同じシーンを表現した複数の文を抽出するために、大きな言語モデルを採用する。
これらの文は、複数のコンテキストを持つ単一の文に凝縮される。
その後,拡散モデルを用いて凝縮キャプションを用いて複雑な画像を生成する。
我々のモデルは、このプロセスを通して作られた合成画像テキストペアにのみ訓練されている。
このパイプラインの有効性は,mscoco,flickr30k,nocapsなどのよく知られたデータセット上で最先端のパフォーマンスを実現するための,ドメイン内およびドメイン間設定の実験的結果を通じて検証される。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。