論文の概要: Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios
- arxiv url: http://arxiv.org/abs/2507.09915v1
- Date: Mon, 14 Jul 2025 04:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.271555
- Title: Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios
- Title(参考訳): Crucial-Diff:データ共有シナリオにおける画像と注釈合成のための統一拡散モデル
- Authors: Siyue Yao, Mingjie Sun, Eng Gee Lim, Ran Yi, Baojiang Zhong, Moncef Gabbouj,
- Abstract要約: Crucial-Diffは重要なサンプルを合成するために設計されたドメインに依存しないフレームワークである。
我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
- 参考スコア(独自算出の注目度): 36.938892077684635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of data in various scenarios, such as medical, industry and autonomous driving, leads to model overfitting and dataset imbalance, thus hindering effective detection and segmentation performance. Existing studies employ the generative models to synthesize more training samples to mitigate data scarcity. However, these synthetic samples are repetitive or simplistic and fail to provide "crucial information" that targets the downstream model's weaknesses. Additionally, these methods typically require separate training for different objects, leading to computational inefficiencies. To address these issues, we propose Crucial-Diff, a domain-agnostic framework designed to synthesize crucial samples. Our method integrates two key modules. The Scene Agnostic Feature Extractor (SAFE) utilizes a unified feature extractor to capture target information. The Weakness Aware Sample Miner (WASM) generates hard-to-detect samples using feedback from the detection results of downstream model, which is then fused with the output of SAFE module. Together, our Crucial-Diff framework generates diverse, high-quality training data, achieving a pixel-level AP of 83.63% and an F1-MAX of 78.12% on MVTec. On polyp dataset, Crucial-Diff reaches an mIoU of 81.64% and an mDice of 87.69%. Code will be released after acceptance.
- Abstract(参考訳): 医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルオーバーフィットやデータセットの不均衡につながるため、効果的な検出とセグメンテーションのパフォーマンスを妨げる。
既存の研究では、データ不足を軽減するためにより多くのトレーニングサンプルを合成するために生成モデルを使用している。
しかし、これらの合成サンプルは反復的または単純化的であり、下流モデルの弱点を狙う「厳密な情報」を提供できない。
さらに、これらの手法は典型的には異なる対象に対する個別の訓練を必要とし、計算の非効率性につながる。
これらの問題に対処するために,重要なサンプルを合成するためのドメインに依存しないフレームワークであるCrucial-Diffを提案する。
我々の方法は2つの重要なモジュールを統合する。
Scene Agnostic Feature Extractor (SAFE)は、統合された特徴抽出器を使用してターゲット情報をキャプチャする。
Weakness Aware Sample Miner (WASM) は、下流モデルの検出結果からフィードバックを得て、検出しにくいサンプルを生成し、SAFEモジュールの出力と融合する。
我々のCrucial-Diffフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
ポリプデータセットでは、Crucial-Diffは81.64%のmIoU、mDiceは87.69%に達する。
コードは受け入れられた後にリリースされる。
関連論文リスト
- Leveraging Text-to-Image Generation for Handling Spurious Correlation [24.940576844328408]
経験的リスク最小化(ERM)でトレーニングされたディープニューラルネットワークは、トレーニングとテストの両方が同じドメインからやってくると、うまく機能する。
ERMモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する急激な相関に頼り、それらの特徴が存在しないと予測できない。
本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルを用いたトレーニングサンプルの生成手法を提案する。
論文 参考訳(メタデータ) (2025-03-21T15:28:22Z) - Perturb-and-Compare Approach for Detecting Out-of-Distribution Samples in Constrained Access Environments [20.554546406575]
我々は,モデルのパラメータやアクティベーションがエンドユーザにアクセスできない場合でも適用可能なOOD検出フレームワークであるMixDiffを提案する。
モデルからの過信出力を誘導するOODサンプルの識別におけるMixDiffの有効性について理論的解析を行った。
論文 参考訳(メタデータ) (2024-08-19T15:51:31Z) - MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis [35.07663680944459]
ディープラーニング技術は、AMR(Automatic Modulation Recognition)タスクにうまく導入されている。
ディープラーニングの成功はすべて、大規模なデータセットのトレーニングによるものだ。
大量のデータの問題を解決するため、一部の研究者はデータ蒸留法を提唱した。
論文 参考訳(メタデータ) (2024-08-05T14:16:54Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Domain Generalization via Ensemble Stacking for Face Presentation Attack
Detection [4.61143637299349]
顔提示攻撃検出(PAD)は、偽造攻撃に対する顔認識システムを保護する上で重要な役割を担っている。
本研究では,合成データ生成と深層アンサンブル学習を組み合わせた包括的ソリューションを提案する。
4つのデータセットに対する実験結果は、3つのベンチマークデータセット上でのHTER(low half total error rate)を示す。
論文 参考訳(メタデータ) (2023-01-05T16:44:36Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。