論文の概要: HiGFA: Hierarchical Guidance for Fine-grained Data Augmentation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.12547v2
- Date: Mon, 24 Nov 2025 13:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 16:30:37.443914
- Title: HiGFA: Hierarchical Guidance for Fine-grained Data Augmentation with Diffusion Models
- Title(参考訳): HiGFA:拡散モデルによる微細データ拡張のための階層的ガイダンス
- Authors: Zhiguang Lu, Qianqian Xu, Peisong Wen, Siran Dai, Qingming Huang,
- Abstract要約: 生成拡散モデルは、データ拡張の約束を示す。
きめ細かいタスクにそれらを適用することは、重大な課題である。
HiGFAは階層的な信頼性駆動型オーケストレーションであり、多様なが忠実な合成画像を生成する。
- 参考スコア(独自算出の注目度): 82.10385962490051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative diffusion models show promise for data augmentation. However, applying them to fine-grained tasks presents a significant challenge: ensuring synthetic images accurately capture the subtle, category-defining features critical for high fidelity. Standard approaches, such as text-based Classifier-Free Guidance (CFG), often lack the required specificity, potentially generating misleading examples that degrade fine-grained classifier performance. To address this, we propose Hierarchically Guided Fine-grained Augmentation (HiGFA). HiGFA leverages the temporal dynamics of the diffusion sampling process. It employs strong text and transformed contour guidance with fixed strengths in the early-to-mid sampling stages to establish overall scene, style, and structure. In the final sampling stages, HiGFA activates a specialized fine-grained classifier guidance and dynamically modulates the strength of all guidance signals based on prediction confidence. This hierarchical, confidence-driven orchestration enables HiGFA to generate diverse yet faithful synthetic images by intelligently balancing global structure formation with precise detail refinement. Experiments on several FGVC datasets demonstrate the effectiveness of HiGFA.
- Abstract(参考訳): 生成拡散モデルは、データ拡張の約束を示す。
しかし、それらをきめ細かいタスクに適用することは、重要な課題である: 合成画像が、高忠実性に重要な微妙なカテゴリー定義特徴を正確に捉えること。
テキストベースのClassifier-Free Guidance (CFG)のような標準的なアプローチは、要求された特異性を欠くことが多く、きめ細かい分類器のパフォーマンスを低下させる誤解を招く可能性がある。
この問題に対処するため,HiGFA(Hierarchically Guided Fine-grained Augmentation)を提案する。
HiGFAは拡散サンプリングプロセスの時間的ダイナミクスを利用する。
強いテキストと変換された輪郭ガイドを採用し、サンプリングステージの初期段階で一定の強度で全体のシーン、スタイル、構造を確立する。
最終サンプリング段階では、HiGFAは特別な細粒度分類器誘導を起動し、予測信頼度に基づいて全ての誘導信号の強度を動的に変調する。
この階層的で信頼性駆動的なオーケストレーションにより、HiGFAは、グローバル構造の形成と精密な精細化とをインテリジェントにバランスさせることで、多種多様だが忠実な合成画像を生成することができる。
いくつかのFGVCデータセットの実験では、HiGFAの有効性が示されている。
関連論文リスト
- GRAVER: Generative Graph Vocabularies for Robust Graph Foundation Models Fine-tuning [92.19531718298744]
Graph Foundation Models (GFMs) は、さまざまなグラフタスクやドメインにまたがる広範な適用性を約束している。
既存のGFMは不安定な数発の微調整に苦戦している。
本稿では,ロバスト GFM ファインチューニングフレームワーク GRAVER を提案する。
論文 参考訳(メタデータ) (2025-11-05T13:07:26Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Prompt-aware classifier free guidance for diffusion models [3.3115063666033167]
本稿では,スケール依存品質を予測し,推論時に最適なガイダンスを選択するプロンプト対応フレームワークを提案する。
セマンティック埋め込みと言語的複雑性を条件とした軽量な予測器は、マルチメトリック品質曲線を推定する。
MSCOCO2014とAudioCapsの実験では、バニラCFGよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2025-09-25T09:16:25Z) - Classifier-Free Guidance: From High-Dimensional Analysis to Generalized Guidance Forms [22.44946627454133]
CFGは十分に高次元かつ無限次元のターゲット分布を正確に再現することを示す。
我々は、この性質、特に非線形CFG一般化を享受するガイダンスが多数存在することを示す。
本研究は,最先端拡散モデルとフローマッチングモデルを用いて,クラス条件とテキスト・ツー・イメージ生成の実験により検証した。
論文 参考訳(メタデータ) (2025-02-11T10:29:29Z) - FedEGG: Federated Learning with Explicit Global Guidance [90.04705121816185]
フェデレートラーニング(FL)は、そのプライバシー保護の性質から、多様なアプリケーションにとって大きな可能性を秘めている。
既存の手法は、最適化ベースのクライアント制約、適応的なクライアント選択、事前訓練されたモデルや合成データの使用によってこれらの課題に対処するのに役立つ。
我々はbftextFedEGGを提案する。bftextFedEGGは、よく定義された、容易に収束できる学習タスクを用いて、グローバルガイドタスクを構築する新しいFLアルゴリズムである。
論文 参考訳(メタデータ) (2024-04-18T04:25:21Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。