論文の概要: Text-Only Image Captioning with Multi-Context Data Generation
- arxiv url: http://arxiv.org/abs/2305.18072v1
- Date: Mon, 29 May 2023 13:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 15:00:20.830193
- Title: Text-Only Image Captioning with Multi-Context Data Generation
- Title(参考訳): マルチコンテキストデータ生成によるテキスト専用画像キャプション
- Authors: Feipeng Ma, Yizhou Zhou, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun
- Abstract要約: Text-only Image Captioning (TIC) は、画像の正確な記述が可能なテキストのみに基づくモデルを構築することを目的としたアプローチである。
単純な記述から生成された画像が、通常、1つまたは限られた文脈で単一の視点を示すという課題を特定した。
本稿では,マルチコンテキストデータ生成を導入してこの問題に対処する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.504119136127674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-only Image Captioning (TIC) is an approach that aims to construct a
model solely based on text that can accurately describe images. Recently,
diffusion models have demonstrated remarkable capabilities in generating
high-quality images that are semantically coherent with given texts. This
presents an opportunity to generate synthetic training images for TIC. However,
we have identified a challenge that the images generated from simple
descriptions typically exhibit a single perspective with one or limited
contexts, which is not aligned with the complexity of real-world scenes in the
image domain. In this paper, we propose a novel framework that addresses this
issue by introducing multi-context data generation. Starting with an initial
text corpus, our framework employs a large language model to select multiple
sentences that describe the same scene from various perspectives. These
sentences are then summarized into a single sentence with multiple contexts. We
generate simple images using the straightforward sentences and complex images
using the summarized sentences through diffusion models. Finally, we train the
model exclusively using the synthetic image-text pairs obtained from this
process. Experimental results demonstrate that our proposed framework
effectively tackles the central challenge we have identified, achieving the
state-of-the-art performance on popular datasets such as MSCOCO, Flickr30k, and
SS1M.
- Abstract(参考訳): Text-only Image Captioning (TIC)は、画像の正確な記述が可能なテキストのみに基づくモデルの構築を目的としたアプローチである。
近年の拡散モデルでは、与えられたテキストと意味的に一貫性のある高品質な画像を生成することができる。
これにより、TICのための合成訓練画像を生成することができる。
しかし,単純な記述から生成された画像は,画像領域における実世界のシーンの複雑さとは一致しない,1つまたは限られたコンテキストで1つの視点を示すのが一般的である。
本稿では,マルチコンテキストデータ生成を導入してこの問題に対処する新しいフレームワークを提案する。
最初のテキストコーパスから始めて、フレームワークは様々な視点から同じシーンを記述する複数の文を選択するために、大きな言語モデルを使用する。
これらの文は、複数のコンテキストを持つ単一の文にまとめられる。
拡散モデルを用いて要約した文を用いて,簡単な文と複雑な画像を生成する。
最後に,このプロセスから得られた合成画像-テキストペアのみを用いてモデルを訓練する。
実験結果から,提案フレームワークは,mscoco,flickr30k,ss1mなどの一般的なデータセットにおける最先端のパフォーマンスを実現するため,我々が認識した中心的課題に効果的に対処できることが判明した。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。