論文の概要: ImageInWords: Unlocking Hyper-Detailed Image Descriptions
- arxiv url: http://arxiv.org/abs/2405.02793v1
- Date: Sun, 5 May 2024 02:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:20:16.702650
- Title: ImageInWords: Unlocking Hyper-Detailed Image Descriptions
- Title(参考訳): ImageInWords:ハイパー詳細画像記述のアンロック
- Authors: Roopal Garg, Andrea Burns, Burcu Karagol Ayan, Yonatan Bitton, Ceslee Montgomery, Yasumasa Onoe, Andrew Bunner, Ranjay Krishna, Jason Baldridge, Radu Soricut,
- Abstract要約: InWords (IIW) はハイパー詳細画像記述をキュレートするためのヒューマン・イン・ザ・ループ・アノテーション・フレームワークである。
我々のデータセットは、可読性、包括性、特異性、幻覚、人間の類似性を大幅に改善します。
我々のモデルの記述は、自動化されたメトリクスと人間のメトリクスの両方で判断されるように、オリジナルに最も近い画像を生成することができる。
- 参考スコア(独自算出の注目度): 36.373619800014275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the longstanding adage "an image is worth a thousand words," creating accurate and hyper-detailed image descriptions for training Vision-Language models remains challenging. Current datasets typically have web-scraped descriptions that are short, low-granularity, and often contain details unrelated to the visual content. As a result, models trained on such data generate descriptions replete with missing information, visual inconsistencies, and hallucinations. To address these issues, we introduce ImageInWords (IIW), a carefully designed human-in-the-loop annotation framework for curating hyper-detailed image descriptions and a new dataset resulting from this process. We validate the framework through evaluations focused on the quality of the dataset and its utility for fine-tuning with considerations for readability, comprehensiveness, specificity, hallucinations, and human-likeness. Our dataset significantly improves across these dimensions compared to recently released datasets (+66%) and GPT-4V outputs (+48%). Furthermore, models fine-tuned with IIW data excel by +31% against prior work along the same human evaluation dimensions. Given our fine-tuned models, we also evaluate text-to-image generation and vision-language reasoning. Our model's descriptions can generate images closest to the original, as judged by both automated and human metrics. We also find our model produces more compositionally rich descriptions, outperforming the best baseline by up to 6% on ARO, SVO-Probes, and Winoground datasets.
- Abstract(参考訳): という長きにわたる警告にもかかわらず、ビジョンランゲージモデルをトレーニングするための正確で詳細な画像記述を作成することは依然として困難である。
現在のデータセットは通常、短い、低粒度で視覚的内容とは無関係な詳細を含む、Webスクラペットによる記述を持つ。
結果として、そのようなデータに基づいてトレーニングされたモデルは、不足した情報、視覚的不整合、幻覚で不快な記述を生成する。
これらの問題に対処するために、超詳細な画像記述をキュレートするための慎重に設計されたヒューマン・イン・ザ・ループ・アノテーション・フレームワークであるImageInWords (IIW)を紹介し、このプロセスから得られた新しいデータセットについて述べる。
本フレームワークは, 可読性, 包括性, 特異性, 幻覚, 人との類似性を考慮し, データセットの品質評価と, 微調整に有効であることを示す。
我々のデータセットは、最近リリースされたデータセット(+66%)とGPT-4V出力(+48%)と比較して、これらの次元で大幅に改善されている。
さらに、IIWデータで微調整されたモデルは、同じ人間の評価次元に沿って前の作業に対して+31%の精度で優れている。
微調整モデルを考えると、テキスト・ツー・イメージ生成と視覚言語推論も評価する。
我々のモデルの記述は、自動化されたメトリクスと人間のメトリクスの両方で判断されるように、オリジナルに最も近い画像を生成することができる。
また、我々のモデルは、ARO、SVO-Probes、Winogroundのデータセットにおいて、最高のベースラインを最大6%上回り、より構成的にリッチな記述を生成する。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions [30.08331098481379]
我々は、画像テクスチャライゼーション(IT)と呼ばれる革新的なフレームワークを提案する。
ITは、既存のマルチモーダル大言語モデル(MLLM)と複数のビジョンエキスパートモデルを活用することで、高品質な画像記述を自動的に生成する。
LLaVA-7Bは、IT処理による記述のトレーニングの恩恵を受け、よりリッチな画像記述を生成する能力の向上を図っている。
論文 参考訳(メタデータ) (2024-06-11T17:37:45Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Enhancing Vision-Language Pre-training with Rich Supervisions [60.269564094889446]
本稿では,ScreenShotsによる事前学習の強化(S4)を提案する。
S4は、大規模なWebスクリーンショットレンダリングのデータを使用したビジョンランゲージモデルのための、新しい事前トレーニングパラダイムである。
提案手法は,現在のスクリーンショット事前学習目標と比較して,9種類の下流タスクにおいて,画像からテキストまでのモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-03-05T22:14:58Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。