論文の概要: TLDR: Text Based Last-layer Retraining for Debiasing Image Classifiers
- arxiv url: http://arxiv.org/abs/2311.18291v2
- Date: Sat, 07 Dec 2024 06:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:49:22.399510
- Title: TLDR: Text Based Last-layer Retraining for Debiasing Image Classifiers
- Title(参考訳): TLDR:Debiasing Image Classifierのためのテキストベースラスト層リトレーニング
- Authors: Juhyeon Park, Seokhyeon Jeong, Taesup Moon,
- Abstract要約: グループバランスデータセットを用いたLast Layer Retraining(LLR)は,分類器の素早い相関を緩和する上で,効率的であることが示されている。
本研究では,大言語モデルで構築されたテキストデータセットをベースとしたLLRによる画像分類手法を提案する。
この手法をTLDR (Text-based Last layer retraining for Debiasing image classifieRs) と呼び,LLR法と競合する性能を示す。
- 参考スコア(独自算出の注目度): 15.719654178563252
- License:
- Abstract: An image classifier may depend on incidental features stemming from a strong correlation between the feature and the classification target in the training dataset. Recently, Last Layer Retraining (LLR) with group-balanced datasets is shown to be efficient in mitigating the spurious correlation of classifiers. However, the acquisition of image-based group-balanced datasets is costly, which hinders the general applicability of the LLR method. In this work, we propose to perform LLR based on text datasets built with large language models to debias a general image classifier. To that end, we demonstrate that text can generally be a proxy for its corresponding image beyond the image-text joint embedding space, which is achieved with a linear projector that ensures orthogonality between its weight and the modality gap of the joint embedding space. In addition, we propose a systematic validation procedure that checks whether the generated words are compatible with the embedding space of CLIP and the image classifier, which is shown to be effective for improving debiasing performance. We dub these procedures as TLDR (Text-based Last layer retraining for Debiasing image classifieRs) and show our method achieves the performance that is competitive with the LLR methods that require group-balanced image dataset for retraining. Furthermore, TLDR outperforms other baselines that involve training the last layer without any group annotated dataset. Codes: https://github.com/beotborry/TLDR
- Abstract(参考訳): 画像分類器は、トレーニングデータセットにおける特徴と分類対象との強い相関から生じる偶発的特徴に依存することがある。
近年,グループバランスデータセットを用いたLast Layer Retraining (LLR) は,分類器の素早い相関を緩和するのに有効であることが示されている。
しかし,画像に基づくグループバランスデータセットの取得にはコストがかかるため,LLR法の適用性が低下する。
本研究では,大言語モデルで構築されたテキストデータセットをベースとしたLLRによる画像分類手法を提案する。
そこで本研究では,テキストが画像-テキスト結合埋め込み空間を超えて対応する画像のプロキシになり得ることを実証し,その重みと関節埋め込み空間のモジュラリティギャップとの直交性を保証する線形プロジェクタを用いて実現した。
また,生成した単語がCLIPの埋め込み空間と互換性があるかどうかを判定する手法を提案する。
これらの手法をTLDR (Text-based Last layer retraining for Debiasing image classifieRs) と呼び,本手法がグループバランス画像データセットを必要とするLLR手法と競合する性能を実現することを示す。
さらにTLDRは、グループアノテートデータセットなしで最後のレイヤをトレーニングする他のベースラインよりも優れています。
コード:https://github.com/beotborry/TLDR
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs [12.878608250420832]
長文大域要約のためのRAGを強化するために,レコードのテキストグラフ(textbfGoR)を提案する。
RAG のtextitretrieve-then-generate パラダイムに着想を得て,検索したテキストチャンクと対応する LLM 生成応答のエッジを確立することでグラフを構築する。
それら間の複雑な相関関係を明らかにするために、GoRは、テキストトグラフニューラルネットワークと、自己教師型モデルトレーニングのための、精巧に設計されたTextitBERTScoreベースの目的を特徴としている。
論文 参考訳(メタデータ) (2024-10-14T18:34:29Z) - Active Learning for Finely-Categorized Image-Text Retrieval by Selecting Hard Negative Unpaired Samples [7.883521157895832]
画像テキスト検索(ITR)モデルをトレーニングするには、十分な量のペアデータを確保することが重要である。
ITRのための能動的学習アルゴリズムを提案し、ペア化されたデータを低コストで収集する。
提案手法の有効性をFlickr30KおよびMS-COCOデータセットで検証した。
論文 参考訳(メタデータ) (2024-05-25T16:50:33Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval [89.30660533051514]
クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
論文 参考訳(メタデータ) (2023-04-06T21:45:46Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。