論文の概要: ECCV Caption: Correcting False Negatives by Collecting
Machine-and-Human-verified Image-Caption Associations for MS-COCO
- arxiv url: http://arxiv.org/abs/2204.03359v1
- Date: Thu, 7 Apr 2022 10:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:51:35.702703
- Title: ECCV Caption: Correcting False Negatives by Collecting
Machine-and-Human-verified Image-Caption Associations for MS-COCO
- Title(参考訳): ECCVキャプション:MS-COCOのためのマシンとヒューマン認証イメージキャプションアソシエーションの収集による偽陰性訂正
- Authors: Sanghyuk Chun, Wonjae Kim, Song Park, Minsuk Chang, Seong Joon Oh
- Abstract要約: 画像-テストマッチング(ITM)は、視覚と言語(VL)モデルの品質を評価するための一般的なタスクである。
我々は,機械および人体アノテータに欠落した関連情報を供給することによって,拡張COCOバリデーション(ECCV)キャプションデータセットを構築した。
我々のデータセットは、元のMS-COCOと比較して、x3.6の正のイメージ・ツー・キャプション・アソシエーションとx8.5のキャプション・ツー・イメージ・アソシエーションを提供する。
- 参考スコア(独自算出の注目度): 34.90339083928539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-Test matching (ITM) is a common task for evaluating the quality of
Vision and Language (VL) models. However, existing ITM benchmarks have a
significant limitation. They have many missing correspondences, originating
from the data construction process itself. For example, a caption is only
matched with one image although the caption can be matched with other similar
images, and vice versa. To correct the massive false negatives, we construct
the Extended COCO Validation (ECCV) Caption dataset by supplying the missing
associations with machine and human annotators. We employ five state-of-the-art
ITM models with diverse properties for our annotation process. Our dataset
provides x3.6 positive image-to-caption associations and x8.5 caption-to-image
associations compared to the original MS-COCO. We also propose to use an
informative ranking-based metric, rather than the popular Recall@K(R@K). We
re-evaluate the existing 25 VL models on existing and proposed benchmarks. Our
findings are that the existing benchmarks, such as COCO 1K R@K, COCO 5K R@K,
CxC R@1 are highly correlated with each other, while the rankings change when
we shift to the ECCV mAP. Lastly, we delve into the effect of the bias
introduced by the choice of machine annotator. Source code and dataset are
available at https://github.com/naver-ai/eccv-caption
- Abstract(参考訳): 画像テストマッチング(ITM)は、視覚と言語(VL)モデルの品質を評価するための一般的なタスクである。
しかし、既存のIMMベンチマークには大きな制限がある。
それらには、データ構築プロセス自体に由来する多くの通信が欠落している。
例えば、キャプションは1つの画像としか一致しないが、キャプションは他の類似した画像とマッチングできる。
大規模な偽陰性を補正するために,機械や人間のアノテーションに欠落した関連情報を供給し,拡張COCO検証(ECCV)キャプションデータセットを構築した。
我々はアノテーションプロセスに様々な特性を持つ5つの最先端IMMモデルを採用している。
我々のデータセットは、元のms-cocoと比較して、x3.6のポジティブなイメージ対キャプチャーアソシエーションとx8.5のキャプション対イメージアソシエーションを提供する。
また、一般的なRecall@K(R@K)ではなく、有意義なランキングベースのメトリクスを使うことを提案する。
既存の25のVLモデルを既存のベンチマークで再評価する。
その結果,COCO 1K R@K,COCO 5K R@K,CxC R@1などの既存のベンチマークは相関が強く,ECCV mAPに移行するとランキングが変化することがわかった。
最後に,機械アノテータの選択によって引き起こされるバイアスの効果について考察する。
ソースコードとデータセットはhttps://github.com/naver-ai/eccv-captionで入手できる。
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective [44.045767657945895]
画像テキスト検索(ITR)評価パイプラインの脆性について,概念的粒度に着目して検討した。
ゼロショット条件下では,標準データセットと細粒度データセットの両方に対して,最先端のビジョンランゲージモデルを4種類評価する。
その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting [27.439965991083177]
クラスカウント(Class counting, CAC)は、クエリ画像中の任意の参照オブジェクトの総発生数をカウントするために使用できる視覚計算タスクである。
マルチクラスの設定を考えると、モデルは参照イメージを考慮せず、クエリイメージ内のすべての支配的なオブジェクトを盲目的にマッチさせます。
既存のCAC評価手法の背景にある問題を解決するための新しい評価プロトコルとメトリクスを導入する。
論文 参考訳(メタデータ) (2024-04-15T14:23:39Z) - Image Similarity using An Ensemble of Context-Sensitive Models [2.9490616593440317]
ラベル付きデータに基づく画像類似性モデルの構築と比較に,より直感的なアプローチを提案する。
画像空間(R,A,B)におけるスパースサンプリングの課題と,文脈に基づくデータを用いたモデルにおけるバイアスに対処する。
実験の結果,構築したアンサンブルモデルは,最高の文脈依存モデルよりも5%高い性能を示した。
論文 参考訳(メタデータ) (2024-01-15T20:23:05Z) - GeneCIS: A Benchmark for General Conditional Image Similarity [21.96493413291777]
我々は「相似性」には多くの概念があり、人間のようにモデルがこれらのモデルに動的に適応できるべきだと論じている。
我々は、モデルが様々な類似性条件に適応する能力を測定するGeneCISベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-13T17:59:58Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - SSCR: Iterative Language-Based Image Editing via Self-Supervised
Counterfactual Reasoning [79.30956389694184]
反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復的な命令に従う。
データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。
本稿では,データ不足を克服する対実的思考を取り入れたセルフスーパービジョンの対実的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-21T01:45:58Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。