論文の概要: Unbiased General Annotated Dataset Generation
- arxiv url: http://arxiv.org/abs/2412.10831v1
- Date: Sat, 14 Dec 2024 13:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:43.312403
- Title: Unbiased General Annotated Dataset Generation
- Title(参考訳): Unbiased General Annotated Dataset Generation
- Authors: Dengyang Jiang, Haoyu Wang, Lei Zhang, Wei Wei, Guang Dai, Mengmeng Wang, Jingdong Wang, Yanning Zhang,
- Abstract要約: 偏りのない一般的な注釈付きデータセット生成フレームワーク(ubGen)を提案する。
本稿では,言語によって定義された非バイアスのセマンティック空間における画像の整合性の観点から,マルチモーダル基盤モデル(例えばCLIP)の利点を活用することを提案する。
実験結果から,手動ラベル付きデータセットや他の合成データセットと比較して,生成した非バイアスデータセットの利用により,一般化能力の安定が図られた。
- 参考スコア(独自算出の注目度): 62.04202037186855
- License:
- Abstract: Pre-training backbone networks on a general annotated dataset (e.g., ImageNet) that comprises numerous manually collected images with category annotations has proven to be indispensable for enhancing the generalization capacity of downstream visual tasks. However, those manually collected images often exhibit bias, which is non-transferable across either categories or domains, thus causing the model's generalization capacity degeneration. To mitigate this problem, we present an unbiased general annotated dataset generation framework (ubGen). Instead of expensive manual collection, we aim at directly generating unbiased images with category annotations. To achieve this goal, we propose to leverage the advantage of a multimodal foundation model (e.g., CLIP), in terms of aligning images in an unbiased semantic space defined by language. Specifically, we develop a bi-level semantic alignment loss, which not only forces all generated images to be consistent with the semantic distribution of all categories belonging to the target dataset in an adversarial learning manner, but also requires each generated image to match the semantic description of its category name. In addition, we further cast an existing image quality scoring model into a quality assurance loss to preserve the quality of the generated image. By leveraging these two loss functions, we can obtain an unbiased image generation model by simply fine-tuning a pre-trained diffusion model using only all category names in the target dataset as input. Experimental results confirm that, compared with the manually labeled dataset or other synthetic datasets, the utilization of our generated unbiased datasets leads to stable generalization capacity enhancement of different backbone networks across various tasks, especially in tasks where the manually labeled samples are scarce.
- Abstract(参考訳): カテゴリアノテーションを付加した多数の手作業で収集した画像からなる一般的なアノテートデータセット(例えばImageNet)上のバックボーンネットワークの事前学習は、下流視覚タスクの一般化能力の向上に不可欠であることが証明されている。
しかしながら、手動で収集した画像は、しばしばバイアスを示し、それはカテゴリまたはドメイン間で転送できないため、モデルの一般化能力の劣化を引き起こす。
この問題を軽減するために、偏りのない一般的な注釈付きデータセット生成フレームワーク(ubGen)を提案する。
高価な手作業のコレクションではなく、カテゴリアノテーションでバイアスのないイメージを直接生成することを目的としています。
この目的を達成するために、言語によって定義された非バイアスのセマンティック空間における画像の整合性の観点から、マルチモーダル基盤モデル(例えばCLIP)の利点を活用することを提案する。
具体的には,2段階のセマンティックアライメント・アライメント・ロス(セマンティックアライメント・アライメント・ロス)を開発する。これは,生成したすべての画像が,対象データセットに属するすべてのカテゴリのセマンティックな分布に一致するように強制するだけでなく,生成した画像がカテゴリ名のセマンティックな記述に一致するように要求する。
さらに、既存の画像品質スコアリングモデルを品質保証損失にキャストし、生成した画像の品質を維持する。
これら2つの損失関数を活用することで、ターゲットデータセットのすべてのカテゴリ名のみを入力として、トレーニング済みの拡散モデルを微調整することで、バイアスのない画像生成モデルを得ることができる。
実験結果から,手動ラベル付きデータセットや他の合成データセットと比較して,生成した非バイアスデータセットの利用により,さまざまなタスク,特に手動ラベル付きサンプルが不足しているタスクにおいて,バックボーンネットワークの一般化能力が安定的に向上することが確認された。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Adapt Anything: Tailor Any Image Classifiers across Domains And
Categories Using Text-to-Image Diffusion Models [82.95591765009105]
我々は,現代テキスト・画像拡散モデルが,ドメインやカテゴリ間でタスク適応型画像分類器をカスタマイズできるかどうかを検討することを目的とする。
対象のテキストプロンプトから派生したカテゴリラベルを用いた画像合成には,1つのオフ・ザ・シェルフテキスト・ツー・イメージモデルのみを用いる。
論文 参考訳(メタデータ) (2023-10-25T11:58:14Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Reconciliation of Statistical and Spatial Sparsity For Robust Image and
Image-Set Classification [27.319334479994787]
分類のための画像や画像セットデータをモデル化するために,textitJ3Sと呼ばれる新しい統計空間スパース表現を提案する。
本稿では,J3Sモデルに基づく結合スパース符号化問題の解法を提案する。
実験の結果,提案手法はFMD, UIUC, ETH-80, YTCデータベース上での競合手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-06-01T06:33:24Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。