論文の概要: Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
- arxiv url: http://arxiv.org/abs/2406.07502v1
- Date: Tue, 11 Jun 2024 17:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 14:36:00.962492
- Title: Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
- Title(参考訳): 画像テクスチャライゼーション: 正確な画像記述と詳細な画像記述を作成するためのフレームワーク
- Authors: Renjie Pi, Jianshu Zhang, Jipeng Zhang, Rui Pan, Zhekai Chen, Tong Zhang,
- Abstract要約: 我々は、画像テクスチャライゼーション(IT)と呼ばれる革新的なフレームワークを提案する。
ITは、既存のマルチモーダル大言語モデル(MLLM)と複数のビジョンエキスパートモデルを活用することで、高品質な画像記述を自動的に生成する。
LLaVA-7Bは、IT処理による記述のトレーニングの恩恵を受け、よりリッチな画像記述を生成する能力の向上を図っている。
- 参考スコア(独自算出の注目度): 30.08331098481379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image description datasets play a crucial role in the advancement of various applications such as image understanding, text-to-image generation, and text-image retrieval. Currently, image description datasets primarily originate from two sources. One source is the scraping of image-text pairs from the web. Despite their abundance, these descriptions are often of low quality and noisy. Another is through human labeling. Datasets such as COCO are generally very short and lack details. Although detailed image descriptions can be annotated by humans, the high annotation cost limits the feasibility. These limitations underscore the need for more efficient and scalable methods to generate accurate and detailed image descriptions. In this paper, we propose an innovative framework termed Image Textualization (IT), which automatically produces high-quality image descriptions by leveraging existing multi-modal large language models (MLLMs) and multiple vision expert models in a collaborative manner, which maximally convert the visual information into text. To address the current lack of benchmarks for detailed descriptions, we propose several benchmarks for comprehensive evaluation, which verifies the quality of image descriptions created by our framework. Furthermore, we show that LLaVA-7B, benefiting from training on IT-curated descriptions, acquire improved capability to generate richer image descriptions, substantially increasing the length and detail of their output with less hallucination.
- Abstract(参考訳): 画像記述データセットは、画像理解、テキスト・ツー・イメージ生成、テキスト・イメージ検索など、様々な応用の進展において重要な役割を果たす。
現在、画像記述データセットは主に2つのソースに由来する。
ひとつのソースは、画像とテキストのペアをWebから取り除くことだ。
その多さにもかかわらず、これらの記述は品質が低くうるさいことが多い。
もう1つは人間によるラベル付けである。
COCOのようなデータセットは概して非常に短く、詳細がない。
詳細な画像記述は人間によって注釈付けできるが、高いアノテーションコストは実現可能性を制限する。
これらの制限は、正確で詳細な画像記述を生成するためのより効率的でスケーラブルな方法の必要性を浮き彫りにした。
本稿では,既存のマルチモーダル大言語モデル(MLLM)とマルチビジョンエキスパートモデルを利用して,視覚情報をテキストに変換することによって,高品質な画像記述を自動生成する,画像テクスチャライゼーション(IT)という革新的なフレームワークを提案する。
詳細な説明のためのベンチマークの欠如に対処するため,本フレームワークで作成した画像記述の品質を検証した総合的な評価のためのベンチマークをいくつか提案する。
さらに,LLaVA-7Bでは,よりリッチな画像記述を生成する能力が向上し,幻覚の少ない出力長と細部が大幅に増加した。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - ImageInWords: Unlocking Hyper-Detailed Image Descriptions [36.373619800014275]
InWords (IIW) はハイパー詳細画像記述をキュレートするためのヒューマン・イン・ザ・ループ・アノテーション・フレームワークである。
我々のデータセットは、可読性、包括性、特異性、幻覚、人間の類似性を大幅に改善します。
我々のモデルの記述は、自動化されたメトリクスと人間のメトリクスの両方で判断されるように、オリジナルに最も近い画像を生成することができる。
論文 参考訳(メタデータ) (2024-05-05T02:15:11Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal
Pre-trained Knowledge [44.31783230767321]
本稿では,一般的な画像記述を,よりセマンティックな詳細で補完するプラグイン・アンド・プレイ・フレームワークであるCapEnrichを提案する。
提案手法は,Web画像における生成文の記述性や多様性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-11-17T06:55:49Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。