論文の概要: TLDR: Text Based Last-layer Retraining for Debiasing Image Classifiers
- arxiv url: http://arxiv.org/abs/2311.18291v2
- Date: Sat, 07 Dec 2024 06:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:49:22.399510
- Title: TLDR: Text Based Last-layer Retraining for Debiasing Image Classifiers
- Title(参考訳): TLDR:Debiasing Image Classifierのためのテキストベースラスト層リトレーニング
- Authors: Juhyeon Park, Seokhyeon Jeong, Taesup Moon,
- Abstract要約: グループバランスデータセットを用いたLast Layer Retraining(LLR)は,分類器の素早い相関を緩和する上で,効率的であることが示されている。
本研究では,大言語モデルで構築されたテキストデータセットをベースとしたLLRによる画像分類手法を提案する。
この手法をTLDR (Text-based Last layer retraining for Debiasing image classifieRs) と呼び,LLR法と競合する性能を示す。
- 参考スコア(独自算出の注目度): 15.719654178563252
- License:
- Abstract: An image classifier may depend on incidental features stemming from a strong correlation between the feature and the classification target in the training dataset. Recently, Last Layer Retraining (LLR) with group-balanced datasets is shown to be efficient in mitigating the spurious correlation of classifiers. However, the acquisition of image-based group-balanced datasets is costly, which hinders the general applicability of the LLR method. In this work, we propose to perform LLR based on text datasets built with large language models to debias a general image classifier. To that end, we demonstrate that text can generally be a proxy for its corresponding image beyond the image-text joint embedding space, which is achieved with a linear projector that ensures orthogonality between its weight and the modality gap of the joint embedding space. In addition, we propose a systematic validation procedure that checks whether the generated words are compatible with the embedding space of CLIP and the image classifier, which is shown to be effective for improving debiasing performance. We dub these procedures as TLDR (Text-based Last layer retraining for Debiasing image classifieRs) and show our method achieves the performance that is competitive with the LLR methods that require group-balanced image dataset for retraining. Furthermore, TLDR outperforms other baselines that involve training the last layer without any group annotated dataset. Codes: https://github.com/beotborry/TLDR
- Abstract(参考訳): 画像分類器は、トレーニングデータセットにおける特徴と分類対象との強い相関から生じる偶発的特徴に依存することがある。
近年,グループバランスデータセットを用いたLast Layer Retraining (LLR) は,分類器の素早い相関を緩和するのに有効であることが示されている。
しかし,画像に基づくグループバランスデータセットの取得にはコストがかかるため,LLR法の適用性が低下する。
本研究では,大言語モデルで構築されたテキストデータセットをベースとしたLLRによる画像分類手法を提案する。
そこで本研究では,テキストが画像-テキスト結合埋め込み空間を超えて対応する画像のプロキシになり得ることを実証し,その重みと関節埋め込み空間のモジュラリティギャップとの直交性を保証する線形プロジェクタを用いて実現した。
また,生成した単語がCLIPの埋め込み空間と互換性があるかどうかを判定する手法を提案する。
これらの手法をTLDR (Text-based Last layer retraining for Debiasing image classifieRs) と呼び,本手法がグループバランス画像データセットを必要とするLLR手法と競合する性能を実現することを示す。
さらにTLDRは、グループアノテートデータセットなしで最後のレイヤをトレーニングする他のベースラインよりも優れています。
コード:https://github.com/beotborry/TLDR
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。