論文の概要: DOCCI: Descriptions of Connected and Contrasting Images
- arxiv url: http://arxiv.org/abs/2404.19753v1
- Date: Tue, 30 Apr 2024 17:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:16:41.270546
- Title: DOCCI: Descriptions of Connected and Contrasting Images
- Title(参考訳): DOCCI:コネクテッド画像とコントラスト画像の記述
- Authors: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge,
- Abstract要約: Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
- 参考スコア(独自算出の注目度): 58.377060316967864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language datasets are vital for both text-to-image (T2I) and image-to-text (I2T) research. However, current datasets lack descriptions with fine-grained detail that would allow for richer associations to be learned by models. To fill the gap, we introduce Descriptions of Connected and Contrasting Images (DOCCI), a dataset with long, human-annotated English descriptions for 15k images that were taken, curated and donated by a single researcher intent on capturing key challenges such as spatial relations, counting, text rendering, world knowledge, and more. We instruct human annotators to create comprehensive descriptions for each image; these average 136 words in length and are crafted to clearly distinguish each image from those that are related or similar. Each description is highly compositional and typically encompasses multiple challenges. Through both quantitative and qualitative analyses, we demonstrate that DOCCI serves as an effective training resource for image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or superior results compared to highly-performant larger models like LLaVA-1.5 7B and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for text-to-image generation, highlighting the limitations of current text-to-image models in capturing long descriptions and fine details.
- Abstract(参考訳): 視覚言語データセットは、テキスト・トゥ・イメージ(T2I)と画像・トゥ・テキスト(I2T)の両方の研究に不可欠である。
しかし、現在のデータセットには、よりリッチなアソシエーションをモデルで学べる詳細な記述がない。
このギャップを埋めるために、私たちは、空間関係、カウント、テキストレンダリング、世界知識などの重要な課題を捉えることを目的とした、単一の研究者によって撮影、キュレーション、寄付された15k画像のための、長く人間に注釈を付けた英語記述のデータセットである、接続されたコントラスト画像の記述(DOCCI)を紹介した。
これらの平均136語の長さは、各画像と関連するものや類似したものを明確に区別するために設計されている。
それぞれの記述は極めて構成的であり、典型的には複数の課題を含んでいる。
定量的および定性的な分析により、DOCCIは画像・テキスト生成の効果的なトレーニングリソースとして機能し、DOCCIに微調整されたPaLI 5Bモデルは、LLaVA-1.5 7BやInstructBLIP 7Bのような高性能なモデルと比較して、同等または優れた結果を示す。
さらに、DOCCIはテキスト・ツー・イメージ生成に有用なテストベッドであり、長い記述や詳細をキャプチャする際の現在のテキスト・ツー・イメージモデルの限界を強調している。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions [30.08331098481379]
我々は、画像テクスチャライゼーション(IT)と呼ばれる革新的なフレームワークを提案する。
ITは、既存のマルチモーダル大言語モデル(MLLM)と複数のビジョンエキスパートモデルを活用することで、高品質な画像記述を自動的に生成する。
LLaVA-7Bは、IT処理による記述のトレーニングの恩恵を受け、よりリッチな画像記述を生成する能力の向上を図っている。
論文 参考訳(メタデータ) (2024-06-11T17:37:45Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。