論文の概要: A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions
- arxiv url: http://arxiv.org/abs/2312.08578v2
- Date: Mon, 17 Jun 2024 14:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 09:12:15.824862
- Title: A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions
- Title(参考訳): 77点以上のテキストトークン:CLIP-Style ModelsをDense Captionで評価
- Authors: Jack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano,
- Abstract要約: 我々はDensely Captioned Imagesデータセットを収集し、7805個の天然画像にマスクによる記述を付加した。
画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。
標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
- 参考スコア(独自算出の注目度): 9.87625120950535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curation methods for massive vision-language datasets trade off between dataset size and quality. However, even the highest quality of available curated captions are far too short to capture the rich visual detail in an image. To show the value of dense and highly-aligned image-text pairs, we collect the Densely Captioned Images (DCI) dataset, containing 7805 natural images human-annotated with mask-aligned descriptions averaging above 1000 words each. With precise and reliable captions associated with specific parts of an image, we can evaluate vision-language models' (VLMs) understanding of image content with a novel task that matches each caption with its corresponding subcrop. As current models are often limited to 77 text tokens, we also introduce a summarized version (sDCI) in which each caption length is limited. We show that modern techniques that make progress on standard benchmarks do not correspond with significant improvement on our sDCI based benchmark. Lastly, we finetune CLIP using sDCI and show significant improvements over the baseline despite a small training set. By releasing the first human annotated dense image captioning dataset, we hope to enable the development of new benchmarks or fine-tuning recipes for the next generation of VLMs to come.
- Abstract(参考訳): 膨大なビジョン言語データセットのキュレーション方法は、データセットのサイズと品質をトレードオフする。
しかし、利用可能なキャプションの最高品質でさえ、画像のリッチな視覚的詳細を捉えるには、あまりにも短すぎる。
濃密で高度に整合した画像テキストペアの価値を示すために,1000語以上を平均的に表現した7805の自然画像を含むDensely Captioned Images (DCI)データセットを収集した。
画像の特定の部分に関連する正確かつ信頼性の高いキャプションを用いて、画像内容の視覚言語モデル(VLM)理解を、各キャプションと対応するサブクロップとを一致させる新しいタスクで評価することができる。
現在のモデルは77のテキストトークンに制限されることが多いため、各キャプションの長さが制限された要約版(sDCI)も導入する。
標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
最後に, sDCIを用いてCLIPを微調整し, トレーニングセットが小さいにもかかわらず, ベースラインを大幅に改善した。
人間の注釈付き高密度画像キャプションデータセットを初めてリリースすることで、次世代のVLMのための新しいベンチマークや微調整のレシピの開発を可能にしたいと考えています。
関連論文リスト
- Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - The Solution for the CVPR2024 NICE Image Captioning Challenge [2.614188906122931]
本報告では,2024 NICEのトピック1ゼロショット画像キャプションに対する解法について紹介する。
論文 参考訳(メタデータ) (2024-04-19T09:32:16Z) - The Solution for the CVPR2023 NICE Image Captioning Challenge [11.37047794237074]
我々はZero-shot Image Captioning Challengeの新たなフロンティアにソリューションを提示する。
この課題には、多くのドメインからの新しい視覚的概念が含まれる。
データレベルでは、Laion-5Bから外部トレーニングデータを収集する。
モデルレベルでは、大規模な視覚言語事前学習モデルであるOFAを使用する。
論文 参考訳(メタデータ) (2023-10-10T09:09:41Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。