論文の概要: TLDR: Text Based Last-layer Retraining for Debiasing Image Classifiers
- arxiv url: http://arxiv.org/abs/2311.18291v1
- Date: Thu, 30 Nov 2023 06:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:42:30.832225
- Title: TLDR: Text Based Last-layer Retraining for Debiasing Image Classifiers
- Title(参考訳): TLDR:Debiasing Image Classifierのためのテキストベースラストレイヤーリトレーニング
- Authors: Juhyeon Park, Seokhyeon Jeong, Taesup Moon
- Abstract要約: グループバランスデータセットを用いたLast Layer Retraining (LLR)は、分類器の素早い相関を緩和するのに効率的であることが知られている。
汎用画像分類器のための大規模言語モデルで構築されたテキストデータセットに基づいてLLRを実行することを提案する。
提案手法は,グループバランスの画像データセットを用いて再トレーニングを行うLLR手法に匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 17.667315953598788
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A classifier may depend on incidental features stemming from a strong
correlation between the feature and the classification target in the training
dataset. Recently, Last Layer Retraining (LLR) with group-balanced datasets is
known to be efficient in mitigating the spurious correlation of classifiers.
However, the acquisition of group-balanced datasets is costly, which hinders
the applicability of the LLR method. In this work, we propose to perform LLR
based on text datasets built with large language models for a general image
classifier. We demonstrate that text can be a proxy for its corresponding image
beyond the image-text joint embedding space, such as CLIP. Based on this, we
use generated texts to train the final layer in the embedding space of the
arbitrary image classifier. In addition, we propose a method of filtering the
generated words to get rid of noisy, imprecise words, which reduces the effort
of inspecting each word. We dub these procedures as TLDR (\textbf{T}ext-based
\textbf{L}ast layer retraining for \textbf{D}ebiasing image
classifie\textbf{R}s) and show our method achieves the performance that is
comparable to those of the LLR methods that also utilize group-balanced image
dataset for retraining. Furthermore, TLDR outperforms other baselines that
involve training the last linear layer without a group annotated dataset.
- Abstract(参考訳): 分類器は、訓練データセットにおける特徴と分類対象との強い相関から生じる付随的な特徴に依存することができる。
近年,グループバランスデータセットを用いたラストレイヤリトレーニング(llr)が,分類器のスプリアス相関の緩和に有効であることが知られている。
しかし,グループバランスデータセットの取得にはコストがかかるため,LLR法の適用性が低下する。
本研究では,大言語モデルで構築されたテキストデータセットをベースとしたLLRによる画像分類手法を提案する。
テキストは、CLIPのような画像-テキスト共同埋め込み空間を超えて、対応する画像のプロキシになり得ることを示す。
これに基づいて,生成したテキストを用いて任意の画像分類器の埋め込み空間における最終層を訓練する。
さらに, 生成した単語をフィルタリングして, ノイズや不正確な単語を除去し, それぞれの単語を検査する労力を削減する手法を提案する。
我々はこれらの手順をTLDR (\textbf{T}ext-based \textbf{L}ast layer retraining for \textbf{D}ebiasing image classifie\textbf{R}s) と呼び、この手法がグループバランス画像データセットを用いて再トレーニングを行うLLR法に匹敵する性能を示す。
さらにTLDRは、グループアノテートデータセットなしで最後の線形層をトレーニングする他のベースラインよりも優れています。
関連論文リスト
- Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for
Pixel-Level Semantic Segmentation [6.82236459614491]
テキストから画像への生成モデルであるStable Diffusionを用いて,ピクセルレベルのセマンティックセマンティックセマンティクスラベルを生成する手法を提案する。
テキストプロンプト,クロスアテンション,SDの自己アテンションを活用することで,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。
これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。
論文 参考訳(メタデータ) (2023-09-25T17:19:26Z) - ASPIRE: Language-Guided Augmentation for Robust Image Classification [45.18975613672963]
ASPIRE(Language-guided Data Augmentation for SPurious correlation Removal)は,合成画像によるトレーニングデータセットの拡張において,素早い特徴を伴わずに有効な方法である。
まず、画像のテキスト記述から前景や背景の特徴を抽出し、その後、高度な言語誘導画像編集を行い、クラスラベルと突発的に相関する特徴を発見する。
最後に,テキスト・ツー・イメージ生成モデルをパーソナライズして,刺激的な特徴を伴わない多様なドメイン内画像を生成する。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval [89.30660533051514]
クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
論文 参考訳(メタデータ) (2023-04-06T21:45:46Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。