論文の概要: When Text and Images Don't Mix: Bias-Correcting Language-Image Similarity Scores for Anomaly Detection
- arxiv url: http://arxiv.org/abs/2407.17083v1
- Date: Wed, 24 Jul 2024 08:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:23:43.971724
- Title: When Text and Images Don't Mix: Bias-Correcting Language-Image Similarity Scores for Anomaly Detection
- Title(参考訳): テキストと画像が混ざらないとき:異常検出のためのバイアス補正言語-画像類似度スコア
- Authors: Adam Goodge, Bryan Hooi, Wee Siong Ng,
- Abstract要約: テキスト入力の埋め込みは、モデルの対照的な訓練目標とは対照的に、画像埋め込みから遠ざかって、予期せず密集していることを示す。
本稿では,この類似性バイアスを補助的,外部的なテキスト入力を用いて直接考慮するBLISSという手法を提案する。
- 参考スコア(独自算出の注目度): 35.09035417676343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) achieves remarkable performance in various downstream tasks through the alignment of image and text input embeddings and holds great promise for anomaly detection. However, our empirical experiments show that the embeddings of text inputs unexpectedly tightly cluster together, far away from image embeddings, contrary to the model's contrastive training objective to align image-text input pairs. We show that this phenomenon induces a `similarity bias' - in which false negative and false positive errors occur due to bias in the similarities between images and the normal label text embeddings. To address this bias, we propose a novel methodology called BLISS which directly accounts for this similarity bias through the use of an auxiliary, external set of text inputs. BLISS is simple, it does not require strong inductive biases about anomalous behaviour nor an expensive training process, and it significantly outperforms baseline methods on benchmark image datasets, even when access to normal data is extremely limited.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)は、画像とテキスト入力の埋め込みをアライメントすることで、様々な下流タスクにおいて顕著な性能を達成し、異常検出に大いに期待する。
しかし, 実験実験の結果, テキスト入力の埋め込みは, 画像埋め込みから遠ざかって, 予期せず密集しており, 画像テキスト入力ペアを整列するモデルの対照的な学習目標とは対照的であることがわかった。
この現象は、画像と通常のラベルテキストの埋め込みの類似性のバイアスにより、偽陰性および偽陽性の誤りが発生する「類似性バイアス」を引き起こすことを示す。
このバイアスに対処するために、補助的な外部テキスト入力を用いて、この類似性バイアスを直接考慮するBLISSと呼ばれる新しい手法を提案する。
BLISSは単純で、異常な振る舞いに関する強い帰納バイアスや高価なトレーニングプロセスを必要としない。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - AITTI: Learning Adaptive Inclusive Token for Text-to-Image Generation [53.65701943405546]
我々は適応的包摂トークンを学習し、最終的な生成出力の属性分布をシフトする。
本手法では,明示的な属性仕様やバイアス分布の事前知識は必要としない。
提案手法は,特定の属性を要求されたり,生成の方向を編集するモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-06-18T17:22:23Z) - Common-Sense Bias Discovery and Mitigation for Classification Tasks [16.8259488742528]
画像記述に基づいてデータセットの特徴クラスタを抽出するフレームワークを提案する。
解析された特徴と相関は人間に解釈可能であるので、我々はCommon-Sense Bias Discovery (CSBD) という手法を名づける。
実験の結果,2つのベンチマーク画像データセットに対して,複数の分類タスクに新たなバイアスが生じることがわかった。
論文 参考訳(メタデータ) (2024-01-24T03:56:07Z) - Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文 参考訳(メタデータ) (2023-07-10T17:54:57Z) - Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic
Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。
COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。
本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:18Z) - Mitigating Test-Time Bias for Fair Image Retrieval [18.349154934096784]
我々は、中立なテキストクエリにより、公平で偏りのない画像検索結果を生成するという課題に対処する。
本稿では,事前学習した視覚言語モデルから出力を後処理する簡単な手法であるポストホックバイアス緩和手法を提案する。
提案手法は,テキストによる画像検索結果において,既存の様々なバイアス軽減手法と比較して,最も低いバイアスを実現する。
論文 参考訳(メタデータ) (2023-05-23T21:31:16Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Data Generation using Texture Co-occurrence and Spatial Self-Similarity
for Debiasing [6.976822832216875]
本稿では, 反対ラベル付き画像のテクスチャ表現を用いて, 付加画像を明示的に生成する新しいデバイアス手法を提案する。
新たに生成された各画像は、反対ラベルのターゲット画像からテクスチャを転送しながら、ソース画像から類似した空間情報を含む。
本モデルでは,生成画像のテクスチャがターゲットと類似しているか否かを決定するテクスチャ共起損失と,生成画像とソース画像間の空間的詳細がよく保存されているかどうかを決定する空間的自己相似損失とを統合する。
論文 参考訳(メタデータ) (2021-10-15T08:04:59Z) - An Unsupervised Sampling Approach for Image-Sentence Matching Using
Document-Level Structural Information [64.66785523187845]
教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
そこで本研究では,追加の文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T05:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。