論文の概要: Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis
- arxiv url: http://arxiv.org/abs/2411.17769v1
- Date: Tue, 26 Nov 2024 08:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:00.013150
- Title: Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis
- Title(参考訳): Omegance: 拡散合成における様々な粒度の単一パラメータ
- Authors: Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy,
- Abstract要約: 拡散合成における粒度を効果的に制御するために,単一のパラメータ$omega$を導入する。
このパラメータは拡散モデルの逆過程の認知段階に組み込まれている。
提案手法は,様々な画像および映像合成タスクにおける印象的な性能を示す。
- 参考スコア(独自算出の注目度): 55.00448838152145
- License:
- Abstract: In this work, we introduce a single parameter $\omega$, to effectively control granularity in diffusion-based synthesis. This parameter is incorporated during the denoising steps of the diffusion model's reverse process. Our approach does not require model retraining, architectural modifications, or additional computational overhead during inference, yet enables precise control over the level of details in the generated outputs. Moreover, spatial masks or denoising schedules with varying $\omega$ values can be applied to achieve region-specific or timestep-specific granularity control. Prior knowledge of image composition from control signals or reference images further facilitates the creation of precise $\omega$ masks for granularity control on specific objects. To highlight the parameter's role in controlling subtle detail variations, the technique is named Omegance, combining "omega" and "nuance". Our method demonstrates impressive performance across various image and video synthesis tasks and is adaptable to advanced diffusion models. The code is available at https://github.com/itsmag11/Omegance.
- Abstract(参考訳): 本研究では,拡散合成における粒度を効果的に制御するために,単一のパラメータ$\omega$を導入する。
このパラメータは拡散モデルの逆過程の認知段階に組み込まれている。
提案手法では, モデル再トレーニングやアーキテクチャ修正, 追加の計算オーバーヘッドを必要としないが, 生成した出力の細部を正確に制御できる。
さらに、空間マスクや様々な$\omega$値のデノナイズスケジュールを適用して、領域固有またはタイムステップ固有粒度制御を実現することができる。
制御信号や参照画像からの画像合成に関する以前の知識は、特定のオブジェクトの粒度制御のための正確な$\omega$マスクの作成をさらに促進している。
微妙な詳細変化の制御におけるパラメータの役割を強調するために、このテクニックは「オメガ」と「ニュアンス」を組み合わせた「オメガンス(Omegance)」と名付けられた。
提案手法は,様々な画像および映像合成タスクにおいて印象的な性能を示し,高度な拡散モデルに適用可能である。
コードはhttps://github.com/itsmag11/Omegance.comで公開されている。
関連論文リスト
- Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - FilterPrompt: A Simple yet Efficient Approach to Guide Image Appearance Transfer in Diffusion Models [20.28288267660839]
FilterPromptは、制御可能な生成の効果を高めるためのアプローチである。
どんな拡散モデルにも適用可能で、ユーザーは特定の画像の特徴の表現を調整できる。
論文 参考訳(メタデータ) (2024-04-20T04:17:34Z) - SCEdit: Efficient and Controllable Image Diffusion Generation via Skip
Connection Editing [18.508719350413802]
SCEdit と呼ばれる,Skip Connection を統合し編集する効率的な生成チューニングフレームワークを提案する。
SCEditはトレーニングパラメータ、メモリ使用量、計算コストを大幅に削減する。
テキスト・ツー・イメージ生成と制御可能な画像合成タスクの実験は、効率と性能の観点から、本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-12-18T17:54:14Z) - Readout Guidance: Learning Control from Diffusion Features [96.22155562120231]
本稿では,学習信号を用いたテキスト・画像拡散モデル制御手法であるReadout Guidanceを提案する。
Readout Guidanceはリードアウトヘッドを使用し、トレーニング済みの凍結拡散モデルの特徴から信号を取り出すために訓練された軽量ネットワークである。
これらの読み出しは、ポーズ、深さ、エッジなどのシングルイメージ特性や、対応性や外観類似性といった複数の画像に関連する高次特性を符号化することができる。
論文 参考訳(メタデータ) (2023-12-04T18:59:32Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。