論文の概要: SGD-Mix: Enhancing Domain-Specific Image Classification with Label-Preserving Data Augmentation
- arxiv url: http://arxiv.org/abs/2505.11813v1
- Date: Sat, 17 May 2025 03:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.864422
- Title: SGD-Mix: Enhancing Domain-Specific Image Classification with Label-Preserving Data Augmentation
- Title(参考訳): SGD-Mix:ラベル保存データ拡張によるドメイン特化画像分類の強化
- Authors: Yixuan Dong, Fang-Yi Su, Jung-Hsien Chiang,
- Abstract要約: 本稿では,多様性,忠実さ,ラベルの明確さを明確に拡張プロセスに統合する新しい枠組みを提案する。
提案手法では,前景のセマンティクスを保存し,背景の多様性を充実させ,ラベルの一貫性を確保するために,塩分濃度誘導混合と微調整拡散モデルを用いている。
- 参考スコア(独自算出の注目度): 0.6554326244334868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation for domain-specific image classification tasks often struggles to simultaneously address diversity, faithfulness, and label clarity of generated data, leading to suboptimal performance in downstream tasks. While existing generative diffusion model-based methods aim to enhance augmentation, they fail to cohesively tackle these three critical aspects and often overlook intrinsic challenges of diffusion models, such as sensitivity to model characteristics and stochasticity under strong transformations. In this paper, we propose a novel framework that explicitly integrates diversity, faithfulness, and label clarity into the augmentation process. Our approach employs saliency-guided mixing and a fine-tuned diffusion model to preserve foreground semantics, enrich background diversity, and ensure label consistency, while mitigating diffusion model limitations. Extensive experiments across fine-grained, long-tail, few-shot, and background robustness tasks demonstrate our method's superior performance over state-of-the-art approaches.
- Abstract(参考訳): ドメイン固有の画像分類タスクのためのデータ拡張は、しばしば、生成されたデータの多様性、忠実さ、ラベルの明快さを同時に解決するのに苦労する。
既存の生成拡散モデルに基づく手法は拡張性を高めることを目的としているが、これらの3つの重要な側面に密に取り組み、モデル特性に対する感受性や強変換の下での確率性といった拡散モデルの本質的な課題を見逃すことがしばしばある。
本稿では,多様性,忠実さ,ラベルの明確さを明確に拡張プロセスに統合する新しい枠組みを提案する。
提案手法では, 拡散モデルの制約を緩和しつつ, 前景のセマンティクスを保存し, 背景の多様性を充実させ, ラベルの整合性を確保するために, サリエンシ誘導混合と微調整拡散モデルを用いる。
細粒度、長細度、少数ショット、バックグラウンドロバスト性タスクにわたる広範囲な実験により、我々の手法は最先端のアプローチよりも優れた性能を示している。
関連論文リスト
- Understanding the Quality-Diversity Trade-off in Diffusion Language Models [0.0]
拡散モデルは、視覚やオーディオなど、さまざまな領域にわたる連続的なデータをモデル化するために使用することができる。
最近の研究は、連続的な埋め込み空間で作業することで、テキスト生成への応用を探求している。
モデルは品質と多様性の間の本質的にのトレードオフを制御する自然な手段を欠いている。
論文 参考訳(メタデータ) (2025-03-11T17:18:01Z) - InpDiffusion: Image Inpainting Localization via Conditional Diffusion Models [10.213390634031049]
現在のIIL法は2つの大きな課題に直面している。
拡散モデルを用いた条件付きマスク生成タスクとしてIILを扱う新しいパラダイムを提案する。
我々の手法であるInpDiffusionは、画像意味条件の統合によって強化された復調過程を利用して、予測を段階的に洗練する。
論文 参考訳(メタデータ) (2025-01-06T07:32:12Z) - Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets [65.42834731617226]
そこで我々は,Nabla-GFlowNetと呼ばれる拡散モデルファインタニングのための強化学習手法を提案する。
提案手法は,大規模テキスト条件による画像拡散モデルである安定拡散の高速かつ多様かつ事前保存的な微調整を実現する。
論文 参考訳(メタデータ) (2024-12-10T18:59:58Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Few-Shot Image Generation by Conditional Relaxing Diffusion Inversion [37.18537753482751]
条件拡散緩和インバージョン(CRDI)は、合成画像生成における分布の多様性を高めるために設計されている。
CRDIはいくつかのサンプルに基づいた微調整を頼りにしていない。
ターゲットの画像インスタンスの再構築と、数ショットの学習による多様性の拡大に重点を置いている。
論文 参考訳(メタデータ) (2024-07-09T21:58:26Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。