論文の概要: ImageInWords: Unlocking Hyper-Detailed Image Descriptions
- arxiv url: http://arxiv.org/abs/2405.02793v2
- Date: Mon, 28 Oct 2024 21:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 02:59:50.177151
- Title: ImageInWords: Unlocking Hyper-Detailed Image Descriptions
- Title(参考訳): ImageInWords:ハイパー詳細画像記述のアンロック
- Authors: Roopal Garg, Andrea Burns, Burcu Karagol Ayan, Yonatan Bitton, Ceslee Montgomery, Yasumasa Onoe, Andrew Bunner, Ranjay Krishna, Jason Baldridge, Radu Soricut,
- Abstract要約: ImageInWords (IIW) はハイパー詳細画像記述をキュレートするためのヒューマン・イン・ザ・ループ・フレームワークである。
包括性、特異性、幻覚などの最近のデータセットと比較して大きな伸びを示している。
また、IIWデータによる微調整により、従来の作業でトレーニングされたモデルに対して、わずか9kのサンプルであっても、これらのメトリクスを+31%改善することを示す。
- 参考スコア(独自算出の注目度): 36.373619800014275
- License:
- Abstract: Despite the longstanding adage "an image is worth a thousand words," generating accurate hyper-detailed image descriptions remains unsolved. Trained on short web-scraped image text, vision-language models often generate incomplete descriptions with visual inconsistencies. We address this via a novel data-centric approach with ImageInWords (IIW), a carefully designed human-in-the-loop framework for curating hyper-detailed image descriptions. Human evaluations on IIW data show major gains compared to recent datasets (+66%) and GPT4V (+48%) across comprehensiveness, specificity, hallucinations, and more. We also show that fine-tuning with IIW data improves these metrics by +31% against models trained with prior work, even with only 9k samples. Lastly, we evaluate IIW models with text-to-image generation and vision-language reasoning tasks. Our generated descriptions result in the highest fidelity images, and boost compositional reasoning by up to 6% on ARO, SVO-Probes, and Winoground datasets. We release the IIW Eval benchmark with human judgement labels, object and image-level annotations from our framework, and existing image caption datasets enriched via IIW-model.
- Abstract(参考訳): 長きにわたる「画像は1000ワードの価値」にもかかわらず、正確な超詳細画像の記述は未解決のままである。
短いウェブスクレイプ画像テキストに基づいて訓練された視覚言語モデルは、しばしば視覚的不整合を伴う不完全記述を生成する。
我々は、ハイパー詳細画像記述をキュレートするための、慎重に設計されたヒューマン・イン・ザ・ループ・フレームワークであるImageInWords (IIW) を用いて、新しいデータ中心のアプローチによってこの問題に対処する。
IIWデータに対する人間の評価は、最近のデータセット(+66%)やGPT4V(+48%)と比較して、包括性、特異性、幻覚などにおいて大きな伸びを示している。
また、IIWデータによる微調整により、従来の作業でトレーニングされたモデルに対して、わずか9kのサンプルであっても、これらのメトリクスを+31%改善することを示す。
最後に,テキスト・画像生成タスクと視覚言語推論タスクを用いたIIWモデルの評価を行った。
その結果,ARO,SVO-Probes,Winogroundのデータセットでは,最も忠実な画像が生成され,コンポジション推論が最大6%向上した。
我々は、人間の判断ラベル、フレームワークからのオブジェクトおよびイメージレベルのアノテーション、既存の画像キャプションデータセットをIIWモデルで強化したIIW Evalベンチマークをリリースする。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions [30.08331098481379]
我々は、画像テクスチャライゼーション(IT)と呼ばれる革新的なフレームワークを提案する。
ITは、既存のマルチモーダル大言語モデル(MLLM)と複数のビジョンエキスパートモデルを活用することで、高品質な画像記述を自動的に生成する。
LLaVA-7Bは、IT処理による記述のトレーニングの恩恵を受け、よりリッチな画像記述を生成する能力の向上を図っている。
論文 参考訳(メタデータ) (2024-06-11T17:37:45Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Enhancing Vision-Language Pre-training with Rich Supervisions [60.269564094889446]
本稿では,ScreenShotsによる事前学習の強化(S4)を提案する。
S4は、大規模なWebスクリーンショットレンダリングのデータを使用したビジョンランゲージモデルのための、新しい事前トレーニングパラダイムである。
提案手法は,現在のスクリーンショット事前学習目標と比較して,9種類の下流タスクにおいて,画像からテキストまでのモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-03-05T22:14:58Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。