論文の概要: ECCV Caption: Correcting False Negatives by Collecting
Machine-and-Human-verified Image-Caption Associations for MS-COCO
- arxiv url: http://arxiv.org/abs/2204.03359v1
- Date: Thu, 7 Apr 2022 10:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:51:35.702703
- Title: ECCV Caption: Correcting False Negatives by Collecting
Machine-and-Human-verified Image-Caption Associations for MS-COCO
- Title(参考訳): ECCVキャプション:MS-COCOのためのマシンとヒューマン認証イメージキャプションアソシエーションの収集による偽陰性訂正
- Authors: Sanghyuk Chun, Wonjae Kim, Song Park, Minsuk Chang, Seong Joon Oh
- Abstract要約: 画像-テストマッチング(ITM)は、視覚と言語(VL)モデルの品質を評価するための一般的なタスクである。
我々は,機械および人体アノテータに欠落した関連情報を供給することによって,拡張COCOバリデーション(ECCV)キャプションデータセットを構築した。
我々のデータセットは、元のMS-COCOと比較して、x3.6の正のイメージ・ツー・キャプション・アソシエーションとx8.5のキャプション・ツー・イメージ・アソシエーションを提供する。
- 参考スコア(独自算出の注目度): 34.90339083928539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-Test matching (ITM) is a common task for evaluating the quality of
Vision and Language (VL) models. However, existing ITM benchmarks have a
significant limitation. They have many missing correspondences, originating
from the data construction process itself. For example, a caption is only
matched with one image although the caption can be matched with other similar
images, and vice versa. To correct the massive false negatives, we construct
the Extended COCO Validation (ECCV) Caption dataset by supplying the missing
associations with machine and human annotators. We employ five state-of-the-art
ITM models with diverse properties for our annotation process. Our dataset
provides x3.6 positive image-to-caption associations and x8.5 caption-to-image
associations compared to the original MS-COCO. We also propose to use an
informative ranking-based metric, rather than the popular Recall@K(R@K). We
re-evaluate the existing 25 VL models on existing and proposed benchmarks. Our
findings are that the existing benchmarks, such as COCO 1K R@K, COCO 5K R@K,
CxC R@1 are highly correlated with each other, while the rankings change when
we shift to the ECCV mAP. Lastly, we delve into the effect of the bias
introduced by the choice of machine annotator. Source code and dataset are
available at https://github.com/naver-ai/eccv-caption
- Abstract(参考訳): 画像テストマッチング(ITM)は、視覚と言語(VL)モデルの品質を評価するための一般的なタスクである。
しかし、既存のIMMベンチマークには大きな制限がある。
それらには、データ構築プロセス自体に由来する多くの通信が欠落している。
例えば、キャプションは1つの画像としか一致しないが、キャプションは他の類似した画像とマッチングできる。
大規模な偽陰性を補正するために,機械や人間のアノテーションに欠落した関連情報を供給し,拡張COCO検証(ECCV)キャプションデータセットを構築した。
我々はアノテーションプロセスに様々な特性を持つ5つの最先端IMMモデルを採用している。
我々のデータセットは、元のms-cocoと比較して、x3.6のポジティブなイメージ対キャプチャーアソシエーションとx8.5のキャプション対イメージアソシエーションを提供する。
また、一般的なRecall@K(R@K)ではなく、有意義なランキングベースのメトリクスを使うことを提案する。
既存の25のVLモデルを既存のベンチマークで再評価する。
その結果,COCO 1K R@K,COCO 5K R@K,CxC R@1などの既存のベンチマークは相関が強く,ECCV mAPに移行するとランキングが変化することがわかった。
最後に,機械アノテータの選択によって引き起こされるバイアスの効果について考察する。
ソースコードとデータセットはhttps://github.com/naver-ai/eccv-captionで入手できる。
関連論文リスト
- COCO-Counterfactuals: Automatically Constructed Counterfactual Examples
for Image-Text Pairs [4.046773059215044]
本稿では,テキスト・ツー・イメージ拡散モデルを用いた反実例の自動生成のためのフレームワークを提案する。
我々はCOCO-Counterfactuals(ペア画像とテキストキャプションのマルチモーダル対物データセット)を作成するためにフレームワークを使用します。
我々は,COCO-Counterfactualsの品質を人体評価により検証し,既存のマルチモーダルモデルが,我々の対物画像-テキストペアによって挑戦されていることを示す。
論文 参考訳(メタデータ) (2023-09-23T00:16:47Z) - GeneCIS: A Benchmark for General Conditional Image Similarity [21.96493413291777]
我々は「相似性」には多くの概念があり、人間のようにモデルがこれらのモデルに動的に適応できるべきだと論じている。
我々は、モデルが様々な類似性条件に適応する能力を測定するGeneCISベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-13T17:59:58Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - RoCOCO: Robust Benchmark MS-COCO to Stress-test Robustness of Image-Text
Matching Models [24.673928721650622]
ITMモデルのロバスト性を評価するための新しい評価ベンチマークを提案する。
具体的には、無関係な画像を挿入して画像を変更し、名詞を代用してキャプションを変更する。
新たに作成されたイメージとキャプションをテストセットに追加するだけでパフォーマンスが低下することが分かりました。
論文 参考訳(メタデータ) (2023-04-21T03:45:59Z) - Spawrious: A Benchmark for Fine Control of Spurious Correlation Biases [8.455991178281469]
我々は,クラスと背景の素早い相関関係を含む画像分類ベンチマークスイートであるベンチマーク-O2O,M2M-Easy,Medium,Hardを提案する。
得られたデータセットは高品質で、約152Kの画像を含んでいる。
論文 参考訳(メタデータ) (2023-03-09T18:22:12Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - G-SimCLR : Self-Supervised Contrastive Learning with Guided Projection
via Pseudo Labelling [0.8164433158925593]
コンピュータビジョンにおいて、ディープニューラルネットワークは大量のラベル付きデータを持つ教師付き設定において、より良い性能を発揮することが明らかである。
本研究では, 温度スケールクロスエントロピー(NT-Xent)損失関数の正規化により, 同じカテゴリの画像が同じバッチにない方が有益であることを示す。
我々は、ラベルのないデータセットで訓練された復号化オートエンコーダの潜在空間表現を使用し、それらをk平均でクラスタリングして擬似ラベルを得る。
論文 参考訳(メタデータ) (2020-09-25T02:25:37Z) - SSCR: Iterative Language-Based Image Editing via Self-Supervised
Counterfactual Reasoning [79.30956389694184]
反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復的な命令に従う。
データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。
本稿では,データ不足を克服する対実的思考を取り入れたセルフスーパービジョンの対実的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-21T01:45:58Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。