論文の概要: TKG-DM: Training-free Chroma Key Content Generation Diffusion Model
- arxiv url: http://arxiv.org/abs/2411.15580v1
- Date: Sat, 23 Nov 2024 15:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:08.948630
- Title: TKG-DM: Training-free Chroma Key Content Generation Diffusion Model
- Title(参考訳): TKG-DM:無トレーニングクロマキーコンテンツ生成拡散モデル
- Authors: Ryugo Morita, Stanislav Frolov, Brian Bernhard Moser, Takahiro Shirakawa, Ko Watanabe, Andreas Dengel, Jinjia Zhou,
- Abstract要約: トレーニングフリークロマキーコンテンツ生成拡散モデル(TKG-DM)
学習自由クロマキーコンテンツ生成拡散モデル(TKG-DM)を提案する。
提案手法は、制御された背景生成のための初期雑音における色相の操作を初めて検討するものである。
- 参考スコア(独自算出の注目度): 9.939293311550655
- License:
- Abstract: Diffusion models have enabled the generation of high-quality images with a strong focus on realism and textual fidelity. Yet, large-scale text-to-image models, such as Stable Diffusion, struggle to generate images where foreground objects are placed over a chroma key background, limiting their ability to separate foreground and background elements without fine-tuning. To address this limitation, we present a novel Training-Free Chroma Key Content Generation Diffusion Model (TKG-DM), which optimizes the initial random noise to produce images with foreground objects on a specifiable color background. Our proposed method is the first to explore the manipulation of the color aspects in initial noise for controlled background generation, enabling precise separation of foreground and background without fine-tuning. Extensive experiments demonstrate that our training-free method outperforms existing methods in both qualitative and quantitative evaluations, matching or surpassing fine-tuned models. Finally, we successfully extend it to other tasks (e.g., consistency models and text-to-video), highlighting its transformative potential across various generative applications where independent control of foreground and background is crucial.
- Abstract(参考訳): 拡散モデルにより、現実主義とテキストの忠実さに強い焦点をあてた高品質な画像の生成が可能になった。
しかし、Stable Diffusionのような大規模なテキスト・ツー・イメージモデルでは、背景オブジェクトがクロマキーの背景の上に置かれるイメージを生成するのに苦労し、微調整なしでフォアグラウンドと背景要素を分離する能力を制限している。
この制限に対処するために,初期ランダムノイズを最適化したトレーニング自由クロマ鍵コンテンツ生成拡散モデル(TKG-DM)を提案する。
提案手法は、制御された背景生成のための初期雑音における色相の操作を初めて検討し、微調整なしで前景と背景の正確な分離を可能にする。
実験の結果, 定性評価, 定量的評価, 微調整モデルとの整合性, および超越性評価において, 既存の手法よりも優れた訓練自由度が得られた。
最後に、これを他のタスク(例えば、一貫性モデルやテキスト・トゥ・ビデオ)に拡張することに成功し、フォアグラウンドとバックグラウンドの独立制御が不可欠である様々な生成アプリケーションにおいて、その変換可能性を強調した。
関連論文リスト
- HYPNOS : Highly Precise Foreground-focused Diffusion Finetuning for Inanimate Objects [1.706656684496508]
頑健な拡散モデルは、ある積の結果のほぼ完全な再構成を行う能力によって決定される。
現在の顕著な拡散に基づく微調整技術は、前景オブジェクトの一貫性を維持するには不十分である。
我々は,高精度な前景焦点拡散微調整技術であるHypnosを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:20:37Z) - FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process [120.91393949012014]
FreeEnhanceは、既製の画像拡散モデルを用いたコンテンツ一貫性のある画像強調のためのフレームワークである。
ノイズ発生段階では、FreeEnhanceは、元の画像の高頻度パターンを保存するために、より周波数の高い領域により軽いノイズを加えるように考案されている。
この段階では3つの目標特性を予測された雑音の規則化の制約として提示し,高精度で視覚的品質の高い画像の強調を行う。
論文 参考訳(メタデータ) (2024-09-11T17:58:50Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - NM-FlowGAN: Modeling sRGB Noise without Paired Images using a Hybrid Approach of Normalizing Flows and GAN [9.81778202920426]
NM-FlowGANは、GANと正規化フローの両方の長所を利用するハイブリッドアプローチである。
本手法は, カメラタイプやISO設定などの手軽に取得可能なパラメータなど, クリーンな画像とノイズ特性に影響を与える要因を用いてノイズを合成する。
我々のNM-FlowGANは、sRGBノイズ合成タスクにおいて、他のベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-12-15T09:09:25Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - FreePIH: Training-Free Painterly Image Harmonization with Diffusion
Model [19.170302996189335]
我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。
我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。
我々の手法は、代表的基準を大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2023-11-25T04:23:49Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Guided Image Synthesis via Initial Image Editing in Diffusion Model [30.622943615086584]
拡散モデルでは、純粋なガウスノイズ画像から高品質な画像を生成することができる。
生成した画像を制御するために初期雑音を操作する新しい方向を提案する。
その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
論文 参考訳(メタデータ) (2023-05-05T09:27:59Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z) - Co-occurrence Background Model with Superpixels for Robust Background
Initialization [10.955692396874678]
超画素セグメンテーションを用いた共起背景モデルを開発した。
挑戦的ベンチマーク(SBMnet)のデータセットから得られた結果は、さまざまな課題の下でパフォーマンスを評価する。
論文 参考訳(メタデータ) (2020-03-29T02:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。