論文の概要: ASPIRE: Language-Guided Augmentation for Robust Image Classification
- arxiv url: http://arxiv.org/abs/2308.10103v2
- Date: Wed, 15 Nov 2023 00:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:03:25.755635
- Title: ASPIRE: Language-Guided Augmentation for Robust Image Classification
- Title(参考訳): ASPIRE:ロバスト画像分類のための言語ガイド拡張
- Authors: Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi,
Sakshi Singh, Sanjoy Chowdhury and Dinesh Manocha
- Abstract要約: ASPIRE(Language-guided Data Augmentation for SPurious correlation Removal)は,合成画像によるトレーニングデータセットの拡張において,素早い特徴を伴わずに有効な方法である。
まず、画像のテキスト記述から前景や背景の特徴を抽出し、その後、高度な言語誘導画像編集を行い、クラスラベルと突発的に相関する特徴を発見する。
最後に,テキスト・ツー・イメージ生成モデルをパーソナライズして,刺激的な特徴を伴わない多様なドメイン内画像を生成する。
- 参考スコア(独自算出の注目度): 45.18975613672963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural image classifiers can often learn to make predictions by overly
relying on non-predictive features that are spuriously correlated with the
class labels in the training data. This leads to poor performance in real-world
atypical scenarios where such features are absent. Supplementing the training
dataset with images without such spurious features can aid robust learning
against spurious correlations via better generalization. This paper presents
ASPIRE (Language-guided data Augmentation for SPurIous correlation REmoval), a
simple yet effective solution for expanding the training dataset with synthetic
images without spurious features. ASPIRE, guided by language, generates these
images without requiring any form of additional supervision or existing
examples. Precisely, we employ LLMs to first extract foreground and background
features from textual descriptions of an image, followed by advanced
language-guided image editing to discover the features that are spuriously
correlated with the class label. Finally, we personalize a text-to-image
generation model to generate diverse in-domain images without spurious
features. We demonstrate the effectiveness of ASPIRE on 4 datasets, including
the very challenging Hard ImageNet dataset, and 9 baselines and show that
ASPIRE improves the classification accuracy of prior methods by 1% - 38%. Code
soon at: https://github.com/Sreyan88/ASPIRE.
- Abstract(参考訳): ニューラルイメージ分類器は、トレーニングデータのクラスラベルと重複して相関する非予測的特徴を過剰に頼って、予測を学習することが多い。
これにより、そのような機能が欠落している現実世界の非定型シナリオのパフォーマンスが低下する。
このようなスプリアスな特徴のない画像でトレーニングデータセットを補完することは、より良い一般化によるスプリアス相関に対する堅牢な学習に役立つ。
本稿では,学習データセットを合成画像で拡張するための簡易かつ効果的な解であるaspire (language-guided data augmentation for spurious correlation removal)を提案する。
ASPIREは言語によってガイドされ、追加の監督や既存の例を必要とせずにこれらの画像を生成する。
正確には、llmsを用いてまず画像のテキスト記述から前景と背景の特徴を抽出し、次に高度な言語による画像編集を行い、クラスラベルと散発的に相関する特徴を発見する。
最後に,テキスト対画像生成モデルをパーソナライズして,多種多様なドメイン内画像を生成する。
4つのデータセットにおけるaspireの有効性を実証し,難解なhard imagenetデータセットと9つのベースラインを用いて,aspireが従来手法の分類精度を1%~38%向上させることを示した。
コード: https://github.com/Sreyan88/ASPIRE
関連論文リスト
- SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - PLIP: Language-Image Pre-training for Person Representation Learning [47.61636087431226]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
微粒なクロスモーダルアソシエーションを明示的に構築するために,3つのプレテキスト,すなわちセマンティックフューズド画像のカラー化,視覚フューズド属性予測,視覚言語マッチングを設計する。
我々は、SynTH-PEDES上でPLIPを事前訓練し、テキストベースのRe-ID、画像ベースのRe-ID、人物属性認識などの下流タスクにまたがるモデルを評価する。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Weakly Supervised Annotations for Multi-modal Greeting Cards Dataset [8.397847537464534]
我々は,Greeting Cardsデータセットから抽象的な視覚概念を学ぶために,事前訓練された画像とテキスト埋め込みから特徴を集約することを提案する。
提案したデータセットは、事前訓練されたテキスト・ツー・イメージ生成モデルを用いて、挨拶カード画像を生成するのにも有用である。
論文 参考訳(メタデータ) (2022-12-01T20:07:52Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。