論文の概要: Salient Concept-Aware Generative Data Augmentation
- arxiv url: http://arxiv.org/abs/2510.15194v1
- Date: Thu, 16 Oct 2025 23:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.416371
- Title: Salient Concept-Aware Generative Data Augmentation
- Title(参考訳): 有能な概念-生成データ拡張を意識した
- Authors: Tianchen Zhao, Xuanbai Chen, Zhihua Li, Jun Fang, Dongsheng An, Xiang Xu, Zhuowen Tu, Yifan Xing,
- Abstract要約: 画像とテキストの両方に条件付けされた生成データ拡張手法は、忠実性と多様性のバランスをとるのに苦労する。
本稿では,合成過程における無関係な視覚的詳細の影響を低減するために,健全な概念認識画像埋め込みモデルを用いたパーソナライズされた画像生成フレームワークを提案する。
提案手法は,8つの細粒度視覚データセットに対して優れた性能を示し,平均的分類精度を0.73%,6.5%向上させる技術拡張手法よりも優れていた。
- 参考スコア(独自算出の注目度): 41.00417010028318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent generative data augmentation methods conditioned on both image and text prompts struggle to balance between fidelity and diversity, as it is challenging to preserve essential image details while aligning with varied text prompts. This challenge arises because representations in the synthesis process often become entangled with non-essential input image attributes such as environmental contexts, creating conflicts with text prompts intended to modify these elements. To address this, we propose a personalized image generation framework that uses a salient concept-aware image embedding model to reduce the influence of irrelevant visual details during the synthesis process, thereby maintaining intuitive alignment between image and text inputs. By generating images that better preserve class-discriminative features with additional controlled variations, our framework effectively enhances the diversity of training datasets and thereby improves the robustness of downstream models. Our approach demonstrates superior performance across eight fine-grained vision datasets, outperforming state-of-the-art augmentation methods with averaged classification accuracy improvements by 0.73% and 6.5% under conventional and long-tail settings, respectively.
- Abstract(参考訳): 画像とテキストの双方に条件付けされた最近の生成データ拡張手法は、様々なテキストのプロンプトと整合しながら、重要な画像の詳細を維持することが困難であるため、忠実さと多様性のバランスをとるのに苦労する。
この課題は、合成過程における表現が環境コンテキストのような非意味な入力画像属性と絡み合うことが多くなり、これらの要素を変更することを意図したテキストプロンプトとの衝突が生じるためである。
そこで本研究では,画像入力とテキスト入力の直感的なアライメントを維持するため,高精細な概念認識型画像埋め込みモデルを用いて,合成過程における無関係な視覚的詳細の影響を低減できるパーソナライズされた画像生成フレームワークを提案する。
分類的特徴をよりよく保存し、制御されたバリエーションを付加することで、我々のフレームワークはトレーニングデータセットの多様性を効果的に向上し、下流モデルの堅牢性を向上させる。
提案手法は,8つの細粒度視覚データセットに対して優れた性能を示し,従来と長期の設定において,平均的分類精度が0.73%,6.5%向上した最先端拡張手法より優れていた。
関連論文リスト
- Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score [4.8677910801584385]
大規模テキスト・画像生成モデルは、多彩で高品質な画像を合成する顕著な能力を示している。
本稿では,テキスト・ツー・イメージ拡散モデルのリッチな生成モデルを活用するフレームワークであるDual Contrastive Denoising Scoreを提案する。
本手法は,入力画像と出力画像間のフレキシブルなコンテンツ修正と構造保存,およびゼロショット画像から画像への変換を実現する。
論文 参考訳(メタデータ) (2025-08-18T08:30:07Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Augmented Conditioning Is Enough For Effective Training Image Generation [11.60839452103417]
実画像の生成プロセスの条件付けとテキストのプロンプトにより、下流トレーニングに有効な合成データセットとして機能する世代を生成することが判明した。
我々は,5つの確立された長尾画像と少数ショット画像の分類ベンチマークにおいて,拡張条件を検証した。
論文 参考訳(メタデータ) (2025-02-06T19:57:33Z) - GenMix: Effective Data Augmentation with Generative Diffusion Model Image Editing [60.101097709212716]
本稿では、一般化可能なプロンプト誘導型生成データ拡張手法であるGenMixを紹介する。
本手法は、画像編集を利用して、カスタム条件付きプロンプトに基づく拡張画像を生成する。
提案手法は、非現実的な画像とラベルの曖昧さを緩和し、結果のモデルの性能と対角的堅牢性を向上する。
論文 参考訳(メタデータ) (2024-12-03T10:45:34Z) - Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-09-11T14:36:24Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Training-free Diffusion Model Adaptation for Variable-Sized
Text-to-Image Synthesis [45.19847146506007]
拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。
本稿では,視覚的忠実度を維持しながら多彩性を扱うためにテキスト・画像拡散モデルを適用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-14T17:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。