論文の概要: Prompt-Free Conditional Diffusion for Multi-object Image Augmentation
- arxiv url: http://arxiv.org/abs/2507.06146v1
- Date: Tue, 08 Jul 2025 16:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.342881
- Title: Prompt-Free Conditional Diffusion for Multi-object Image Augmentation
- Title(参考訳): マルチオブジェクト画像拡張のためのプロンプトフリー条件付き拡散
- Authors: Haoyu Wang, Lei Zhang, Wei Wei, Chen Ding, Yanning Zhang,
- Abstract要約: マルチオブジェクト画像拡張のためのプロンプトフリー条件付き拡散フレームワークを提案する。
具体的には、画像から意味を抽出し、テキストを置換するローカル・グローバル・セマンティック・フュージョン戦略を導入する。
また、モデルトレーニングにおける従来の再建損失を支援するために、報酬モデルに基づく計数損失を設計する。
- 参考スコア(独自算出の注目度): 45.92182911052815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models has underpinned much recent advances of dataset augmentation in various computer vision tasks. However, when involving generating multi-object images as real scenarios, most existing methods either rely entirely on text condition, resulting in a deviation between the generated objects and the original data, or rely too much on the original images, resulting in a lack of diversity in the generated images, which is of limited help to downstream tasks. To mitigate both problems with one stone, we propose a prompt-free conditional diffusion framework for multi-object image augmentation. Specifically, we introduce a local-global semantic fusion strategy to extract semantics from images to replace text, and inject knowledge into the diffusion model through LoRA to alleviate the category deviation between the original model and the target dataset. In addition, we design a reward model based counting loss to assist the traditional reconstruction loss for model training. By constraining the object counts of each category instead of pixel-by-pixel constraints, bridging the quantity deviation between the generated data and the original data while improving the diversity of the generated data. Experimental results demonstrate the superiority of the proposed method over several representative state-of-the-art baselines and showcase strong downstream task gain and out-of-domain generalization capabilities. Code is available at \href{https://github.com/00why00/PFCD}{here}.
- Abstract(参考訳): 拡散モデルは、様々なコンピュータビジョンタスクにおけるデータセット拡張の非常に最近の進歩を支えている。
しかし、実際のシナリオとしてマルチオブジェクト画像を生成する場合、既存のほとんどのメソッドは、完全にテキストの状態に依存するか、生成したオブジェクトと元のデータとのずれを生じるか、あるいは元のイメージに大きく依存することになり、生成されたイメージの多様性が欠如する。
両問題を1つの石で緩和するために,多目的画像拡張のための急速自由条件拡散フレームワークを提案する。
具体的には、画像からセマンティクスを抽出してテキストを置換し、LoRAを介して拡散モデルに知識を注入し、元のモデルとターゲットデータセットのカテゴリ偏差を軽減するローカル・グローバルなセマンティクス融合戦略を導入する。
また、モデルトレーニングにおける従来の再建損失を支援するために、報酬モデルに基づく計数損失を設計する。
画素単位の制約ではなく、各カテゴリのオブジェクト数を制約することにより、生成されたデータと元のデータとの量差をブリッジし、生成されたデータの多様性を向上する。
実験により,提案手法がいくつかの最先端ベースラインよりも優れていることを示すとともに,下流タスクゲインと領域外一般化能力を示す。
コードは \href{https://github.com/00why00/PFCD}{here} で公開されている。
関連論文リスト
- Origin Identification for Text-Guided Image-to-Image Diffusion Models [39.234894330025114]
テキスト誘導画像と画像の拡散モデル(ID$2$)の原点識別を提案する。
ID$2$の直接的な解決策は、クエリと参照イメージの両方から機能を抽出し比較するために、特別なディープ埋め込みモデルをトレーニングすることである。
提案したID$2$タスクのこの課題を解決するために,最初のデータセットと理論的に保証されたメソッドをコントリビュートする。
論文 参考訳(メタデータ) (2025-01-04T20:34:53Z) - Low-Biased General Annotated Dataset Generation [62.04202037186855]
低バイアスの一般アノテーション付きデータセット生成フレームワーク(lbGen)を提案する。
高価な手作業による収集ではなく,カテゴリアノテーションを用いた低バイアス画像を直接生成することを目的としている。
実験結果から,手動ラベル付きデータセットや他の合成データセットと比較して,生成した低バイアスデータセットの利用により,一般化能力の安定が図られた。
論文 参考訳(メタデータ) (2024-12-14T13:28:40Z) - Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model [5.57325257338134]
従来のデータ拡張方法は、ハイレベルなセマンティック属性を変更することはできない。
画像から画像への変換をパラメータ化するためのテキスト間拡散モデルを提案する。
我々は、元のデータセットから実際のオブジェクトのインスタンスを消去し、削除されたリージョンで同様の意味を持つ新しいインスタンスを生成することで、この目標を達成する。
論文 参考訳(メタデータ) (2024-09-30T10:21:54Z) - GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。
本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。
本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-12-05T07:34:30Z) - Effective Data Augmentation With Diffusion Models [45.18188726287581]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。