論文の概要: Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2304.03391v1
- Date: Thu, 6 Apr 2023 21:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:29:39.364816
- Title: Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval
- Title(参考訳): クロスモーダル検索のためのスプリアス相関の暴露と緩和
- Authors: Jae Myung Kim, A. Sophia Koepke, Cordelia Schmid, Zeynep Akata
- Abstract要約: クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
- 参考スコア(独自算出の注目度): 89.30660533051514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval methods are the preferred tool to search databases for
the text that best matches a query image and vice versa. However, image-text
retrieval models commonly learn to memorize spurious correlations in the
training data, such as frequent object co-occurrence, instead of looking at the
actual underlying reasons for the prediction in the image. For image-text
retrieval, this manifests in retrieved sentences that mention objects that are
not present in the query image. In this work, we introduce ODmAP@k, an object
decorrelation metric that measures a model's robustness to spurious
correlations in the training data. We use automatic image and text
manipulations to control the presence of such object correlations in designated
test data. Additionally, our data synthesis technique is used to tackle model
biases due to spurious correlations of semantically unrelated objects in the
training data. We apply our proposed pipeline, which involves the finetuning of
image-text retrieval frameworks on carefully designed synthetic data, to three
state-of-the-art models for image-text retrieval. This results in significant
improvements for all three models, both in terms of the standard retrieval
performance and in terms of our object decorrelation metric. The code is
available at https://github.com/ExplainableML/Spurious_CM_Retrieval.
- Abstract(参考訳): クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
しかし、画像テキスト検索モデルは、画像内の予測の実際の根拠を見るのではなく、頻繁なオブジェクト共起など、トレーニングデータの散発的な相関を記憶することを学ぶ。
画像テキスト検索では、クエリ画像に存在しないオブジェクトを参照する検索された文に現れる。
本研究では,モデルのロバスト性を測定する対象非相関指標であるodmap@kを提案する。
画像とテキストの自動操作によって、指定されたテストデータにそのようなオブジェクト相関が存在することを制御します。
さらに,データ合成手法は,学習データにおける意味的無関係な対象の相関性に起因したモデルバイアスに対処するために用いられる。
我々は,画像テキスト検索のための3つの最先端モデルに,画像テキスト検索フレームワークを注意深く設計した合成データに微調整するパイプラインを提案する。
これにより、3つのモデルすべてにおいて、標準検索性能とオブジェクト非相関メトリックの両方の観点から大きな改善がもたらされます。
コードはhttps://github.com/explainableml/spurious_cm_retrievalで入手できる。
関連論文リスト
- Nearest Neighbor Normalization Improves Multimodal Retrieval [30.076028359751614]
本稿では,Nearest Neighbor Normalization (NNN) という,追加トレーニングを伴わない訓練用コントラスト画像テキスト検索モデルの誤り訂正手法を提案する。
NNNは参照データベースを必要とするが、このデータベースのトレーニングは一切必要とせず、微調整後にモデルの取得精度を高めることもできる。
論文 参考訳(メタデータ) (2024-10-31T16:44:10Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Spuriousness-Aware Meta-Learning for Learning Robust Classifiers [26.544938760265136]
Spurious correlations is brittle associations between certain attribute of inputs and target variables。
深部画像分類器はしばしばそれらを予測に利用し、相関が持たないデータの一般化が不十分になる。
スプリアス相関の影響を緩和することはロバストなモデル一般化に不可欠であるが、しばしばデータ内のスプリアス相関のアノテーションを必要とする。
論文 参考訳(メタデータ) (2024-06-15T21:41:25Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。