論文の概要: Penalizing Boundary Activation for Object Completeness in Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.16968v1
- Date: Sun, 21 Sep 2025 07:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.058184
- Title: Penalizing Boundary Activation for Object Completeness in Diffusion Models
- Title(参考訳): 拡散モデルにおける物体完全性に対するペナライズ境界活性化
- Authors: Haoyang Xu, Tianhao Zhao, Sibei Yang, Yutian Li,
- Abstract要約: 拡散モデルはテキスト・トゥ・イメージ(T2I)生成の強力な技術として登場した。
本研究では,不完全性の問題を詳細に解析し,不完全オブジェクト生成の要因はモデルトレーニングにおけるRandomCropの利用であることを示す。
本稿では,初期認知段階において,画像境界におけるアクティベーション値をペナライズする学習自由解を提案する。
- 参考スコア(独自算出の注目度): 29.66987601808277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as a powerful technique for text-to-image (T2I) generation, creating high-quality, diverse images across various domains. However, a common limitation in these models is the incomplete display of objects, where fragments or missing parts undermine the model's performance in downstream applications. In this study, we conduct an in-depth analysis of the incompleteness issue and reveal that the primary factor behind incomplete object generation is the usage of RandomCrop during model training. This widely used data augmentation method, though enhances model generalization ability, disrupts object continuity during training. To address this, we propose a training-free solution that penalizes activation values at image boundaries during the early denoising steps. Our method is easily applicable to pre-trained Stable Diffusion models with minimal modifications and negligible computational overhead. Extensive experiments demonstrate the effectiveness of our method, showing substantial improvements in object integrity and image quality.
- Abstract(参考訳): 拡散モデルはテキスト・ツー・イメージ(T2I)生成の強力な技術として登場し、様々な領域にわたる高品質で多様な画像を生成する。
しかし、これらのモデルで共通する制限はオブジェクトの不完全な表示であり、ダウンストリームアプリケーションではフラグメントや欠落部分がモデルの性能を損なう。
本研究では,不完全性の問題を詳細に解析し,不完全オブジェクト生成の要因はモデルトレーニングにおけるRandomCropの利用であることを示す。
このデータ拡張法は、モデル一般化能力を高めるが、訓練中にオブジェクトの連続性を損なう。
そこで本研究では,初期段階における画像境界におけるアクティベーション値をペナライズする学習自由解を提案する。
本手法は,最小限の修正と無視可能な計算オーバーヘッドを有する事前学習型安定拡散モデルに適用可能である。
広範囲な実験により,本手法の有効性が示され,オブジェクトの完全性や画質が大幅に向上した。
関連論文リスト
- CountDiffusion: Text-to-Image Synthesis with Training-Free Counting-Guidance Diffusion [82.82885671486795]
テキスト記述から適切なオブジェクト量で画像を生成するためのトレーニング不要のフレームワークであるCountDiffusionを提案する。
提案したCountDiffusionは、さらなるトレーニングなしで、拡散ベースのテキスト・ツー・イメージ(T2I)生成モデルにプラグインすることができる。
論文 参考訳(メタデータ) (2025-05-07T11:47:35Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Learning Diffusion Model from Noisy Measurement using Principled Expectation-Maximization Method [9.173055778539641]
本稿では,任意の破損型を持つ雑音データから拡散モデルを反復的に学習する,原則的予測最大化(EM)フレームワークを提案する。
筆者らはモンテカルロ法を用いて,ノイズ測定からクリーンな画像を正確に推定し,次いで再構成画像を用いて拡散モデルを訓練した。
論文 参考訳(メタデータ) (2024-10-15T03:54:59Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Cross-domain Compositing with Pretrained Diffusion Models [34.98199766006208]
我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。
本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-02-20T18:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。