論文の概要: Decoupled Data Augmentation for Improving Image Classification
- arxiv url: http://arxiv.org/abs/2411.02592v1
- Date: Tue, 29 Oct 2024 06:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 11:30:39.244969
- Title: Decoupled Data Augmentation for Improving Image Classification
- Title(参考訳): 画像分類改善のためのデカップリングデータ拡張
- Authors: Ruoxin Chen, Zhe Wang, Ke-Yue Zhang, Shuang Wu, Jiamu Sun, Shouli Wang, Taiping Yao, Shouhong Ding,
- Abstract要約: Decoupled Data Augmentation (De-DA)を導入する。
生成モデルを用いて、制御条件下での実際のCDPの修正を行い、セマンティック一貫性を保つ。
また、画像のCIPをクラス間変種に置き換え、多様なCDP-CIPの組み合わせを作成します。
- 参考スコア(独自算出の注目度): 37.50690945158849
- License:
- Abstract: Recent advancements in image mixing and generative data augmentation have shown promise in enhancing image classification. However, these techniques face the challenge of balancing semantic fidelity with diversity. Specifically, image mixing involves interpolating two images to create a new one, but this pixel-level interpolation can compromise fidelity. Generative augmentation uses text-to-image generative models to synthesize or modify images, often limiting diversity to avoid generating out-of-distribution data that potentially affects accuracy. We propose that this fidelity-diversity dilemma partially stems from the whole-image paradigm of existing methods. Since an image comprises the class-dependent part (CDP) and the class-independent part (CIP), where each part has fundamentally different impacts on the image's fidelity, treating different parts uniformly can therefore be misleading. To address this fidelity-diversity dilemma, we introduce Decoupled Data Augmentation (De-DA), which resolves the dilemma by separating images into CDPs and CIPs and handling them adaptively. To maintain fidelity, we use generative models to modify real CDPs under controlled conditions, preserving semantic consistency. To enhance diversity, we replace the image's CIP with inter-class variants, creating diverse CDP-CIP combinations. Additionally, we implement an online randomized combination strategy during training to generate numerous distinct CDP-CIP combinations cost-effectively. Comprehensive empirical evaluations validate the effectiveness of our method.
- Abstract(参考訳): 画像の混合と生成データの増大の最近の進歩は、画像分類の強化を約束している。
しかし、これらの手法は、意味的忠実性と多様性のバランスをとるという課題に直面している。
具体的には、2つの画像を補間して新しい画像を生成するが、このピクセルレベルの補間は忠実さを損なう可能性がある。
生成拡張は、画像の合成や修正にテキストから画像への生成モデルを使用し、しばしば多様性を制限し、精度に影響を与える可能性のあるアウト・オブ・ディストリビューションデータを生成することを避ける。
本稿では,この忠実度・多様性ジレンマが,既存手法の全体像パラダイムに由来することを提案する。
画像は、クラス依存部(CDP)とクラス非依存部(CIP)から構成されるので、各部分が画像の忠実性に根本的に異なる影響を与えるので、異なる部分を均一に扱うことは誤解を招くことができる。
そこで本研究では,画像をCDPとCIPに分離し,適応的に処理することでジレンマを解消するDecoupled Data Augmentation(De-DA)を提案する。
整合性を維持するために、生成モデルを用いて、制御条件下での実際のCDPの修正を行い、意味的整合性を維持する。
多様性を高めるため、画像のCIPをクラス間変種に置き換え、多様なCDP-CIPの組み合わせを生成する。
さらに、トレーニング中に多数の異なるCDP-CIPの組み合わせをコスト効率よく生成するために、オンラインランダム化組み合わせ戦略を実装した。
総合的な経験的評価により,本手法の有効性が検証された。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Learning Invariant Inter-pixel Correlations for Superpixel Generation [12.605604620139497]
学習可能な特徴は、制約付き判別能力を示し、不満足なピクセルグループ化性能をもたらす。
本稿では,不変画素間相関と統計特性を選択的に分離するContentangle Superpixelアルゴリズムを提案する。
4つのベンチマークデータセットの実験結果は、既存の最先端手法に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-28T09:46:56Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - Audio-to-Image Cross-Modal Generation [0.0]
クロスモーダル表現学習は、異なるモーダルからの情報を1つの表現に統合することができる。
オーディオデータから画像アーキタイプを再構成するために、可変オートエンコーダ(VAE)を訓練する。
その結果, 生成した画像が相対的に不整合(多様性)である場合でも, 適切な画像分類に欠かせない特徴が保存されていることが示唆された。
論文 参考訳(メタデータ) (2021-09-27T21:25:31Z) - DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition [85.94331736287765]
我々は、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。
大規模可視データの豊富なアイデンティティ情報を結合分布に統合する。
同一の同一性を持つ多種多様な多種多様な画像は、ノイズから生成することができる。
論文 参考訳(メタデータ) (2020-09-20T09:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。