論文の概要: Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2304.03391v1
- Date: Thu, 6 Apr 2023 21:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:29:39.364816
- Title: Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval
- Title(参考訳): クロスモーダル検索のためのスプリアス相関の暴露と緩和
- Authors: Jae Myung Kim, A. Sophia Koepke, Cordelia Schmid, Zeynep Akata
- Abstract要約: クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
- 参考スコア(独自算出の注目度): 89.30660533051514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval methods are the preferred tool to search databases for
the text that best matches a query image and vice versa. However, image-text
retrieval models commonly learn to memorize spurious correlations in the
training data, such as frequent object co-occurrence, instead of looking at the
actual underlying reasons for the prediction in the image. For image-text
retrieval, this manifests in retrieved sentences that mention objects that are
not present in the query image. In this work, we introduce ODmAP@k, an object
decorrelation metric that measures a model's robustness to spurious
correlations in the training data. We use automatic image and text
manipulations to control the presence of such object correlations in designated
test data. Additionally, our data synthesis technique is used to tackle model
biases due to spurious correlations of semantically unrelated objects in the
training data. We apply our proposed pipeline, which involves the finetuning of
image-text retrieval frameworks on carefully designed synthetic data, to three
state-of-the-art models for image-text retrieval. This results in significant
improvements for all three models, both in terms of the standard retrieval
performance and in terms of our object decorrelation metric. The code is
available at https://github.com/ExplainableML/Spurious_CM_Retrieval.
- Abstract(参考訳): クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
しかし、画像テキスト検索モデルは、画像内の予測の実際の根拠を見るのではなく、頻繁なオブジェクト共起など、トレーニングデータの散発的な相関を記憶することを学ぶ。
画像テキスト検索では、クエリ画像に存在しないオブジェクトを参照する検索された文に現れる。
本研究では,モデルのロバスト性を測定する対象非相関指標であるodmap@kを提案する。
画像とテキストの自動操作によって、指定されたテストデータにそのようなオブジェクト相関が存在することを制御します。
さらに,データ合成手法は,学習データにおける意味的無関係な対象の相関性に起因したモデルバイアスに対処するために用いられる。
我々は,画像テキスト検索のための3つの最先端モデルに,画像テキスト検索フレームワークを注意深く設計した合成データに微調整するパイプラインを提案する。
これにより、3つのモデルすべてにおいて、標準検索性能とオブジェクト非相関メトリックの両方の観点から大きな改善がもたらされます。
コードはhttps://github.com/explainableml/spurious_cm_retrievalで入手できる。
関連論文リスト
- Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - A Masked Image Reconstruction Network for Document-level Relation
Extraction [3.276435438007766]
文書レベルの関係抽出は、複雑な3重関係を抽出するために複数の文に対する推論を必要とする。
マスク付き画像再構成ネットワーク(DRE-MIR)に基づく文書レベルの関係抽出モデルを提案する。
我々は,3つの公開文書レベルの関係抽出データセットについて,そのモデルを評価する。
論文 参考訳(メタデータ) (2022-04-21T02:41:21Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Evaluating Contrastive Models for Instance-based Image Retrieval [6.393147386784114]
画像検索タスクにおけるコントラストモデルの評価を行う。
対照的な手法を用いてトレーニングされたモデルは、ImageNetラベルに基づいてトレーニングされたトレーニング済みベースラインとオンパー(およびパフォーマンス)を実行する。
論文 参考訳(メタデータ) (2021-04-30T12:05:23Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。