論文の概要: ASPIRE: Language-Guided Augmentation for Robust Image Classification
- arxiv url: http://arxiv.org/abs/2308.10103v1
- Date: Sat, 19 Aug 2023 20:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:48:19.647008
- Title: ASPIRE: Language-Guided Augmentation for Robust Image Classification
- Title(参考訳): ASPIRE:ロバスト画像分類のための言語ガイド拡張
- Authors: Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi,
Sakshi Singh, Sanjoy Chowdhury and Dinesh Manocha
- Abstract要約: ASPIRE(Language-guided Data Augmentation for SPurious correlation Removal)は,合成画像によるトレーニングデータセットの拡張において,素早い特徴を伴わずに有効な方法である。
まず、画像のテキスト記述から前景や背景の特徴を抽出し、その後、高度な言語誘導画像編集を行い、クラスラベルと突発的に相関する特徴を発見する。
最後に,テキスト・ツー・イメージ生成モデルをパーソナライズして,刺激的な特徴を伴わない多様なドメイン内画像を生成する。
- 参考スコア(独自算出の注目度): 45.18975613672963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural image classifiers can often learn to make predictions by overly
relying on non-predictive features that are spuriously correlated with the
class labels in the training data. This leads to poor performance in real-world
atypical scenarios where such features are absent. Supplementing the training
dataset with images without such spurious features can aid robust learning
against spurious correlations via better generalization. This paper presents
ASPIRE (Language-guided data Augmentation for SPurIous correlation REmoval), a
simple yet effective solution for expanding the training dataset with synthetic
images without spurious features. ASPIRE, guided by language, generates these
images without requiring any form of additional supervision or existing
examples. Precisely, we employ LLMs to first extract foreground and background
features from textual descriptions of an image, followed by advanced
language-guided image editing to discover the features that are spuriously
correlated with the class label. Finally, we personalize a text-to-image
generation model to generate diverse in-domain images without spurious
features. We demonstrate the effectiveness of ASPIRE on 4 datasets, including
the very challenging Hard ImageNet dataset, and 9 baselines and show that
ASPIRE improves the classification accuracy of prior methods by 1% - 38%. Code
soon at: https://github.com/Sreyan88/ASPIRE.
- Abstract(参考訳): ニューラルイメージ分類器は、トレーニングデータのクラスラベルと重複して相関する非予測的特徴を過剰に頼って、予測を学習することが多い。
これにより、そのような機能が欠落している現実世界の非定型シナリオのパフォーマンスが低下する。
このようなスプリアスな特徴のない画像でトレーニングデータセットを補完することは、より良い一般化によるスプリアス相関に対する堅牢な学習に役立つ。
本稿では,学習データセットを合成画像で拡張するための簡易かつ効果的な解であるaspire (language-guided data augmentation for spurious correlation removal)を提案する。
ASPIREは言語によってガイドされ、追加の監督や既存の例を必要とせずにこれらの画像を生成する。
正確には、llmsを用いてまず画像のテキスト記述から前景と背景の特徴を抽出し、次に高度な言語による画像編集を行い、クラスラベルと散発的に相関する特徴を発見する。
最後に,テキスト対画像生成モデルをパーソナライズして,多種多様なドメイン内画像を生成する。
4つのデータセットにおけるaspireの有効性を実証し,難解なhard imagenetデータセットと9つのベースラインを用いて,aspireが従来手法の分類精度を1%~38%向上させることを示した。
コード: https://github.com/Sreyan88/ASPIRE
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。