論文の概要: Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis
- arxiv url: http://arxiv.org/abs/2411.17769v2
- Date: Mon, 21 Jul 2025 10:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 18:47:38.797058
- Title: Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis
- Title(参考訳): Omegance: 拡散合成における様々な粒度の単一パラメータ
- Authors: Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy,
- Abstract要約: 拡散に基づく合成の粒度を効果的に制御するためには,1つのパラメータ$omega$しか必要としないことを示す。
この単純なアプローチでは、モデルの再訓練やアーキテクチャの変更を必要とせず、無視できる計算オーバーヘッドを発生させる。
本手法は,様々な画像および映像合成タスクにおいて印象的な性能を示し,高度な拡散モデルに適用可能である。
- 参考スコア(独自算出の注目度): 55.00448838152145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we show that we only need a single parameter $\omega$ to effectively control granularity in diffusion-based synthesis. This parameter is incorporated during the denoising steps of the diffusion model's reverse process. This simple approach does not require model retraining or architectural modifications and incurs negligible computational overhead, yet enables precise control over the level of details in the generated outputs. Moreover, spatial masks or denoising schedules with varying $\omega$ values can be applied to achieve region-specific or timestep-specific granularity control. External control signals or reference images can guide the creation of precise $\omega$ masks, allowing targeted granularity adjustments. Despite its simplicity, the method demonstrates impressive performance across various image and video synthesis tasks and is adaptable to advanced diffusion models. The code is available at https://github.com/itsmag11/Omegance.
- Abstract(参考訳): 本研究では,拡散合成の粒度を効果的に制御するために,単一のパラメータ$\omega$しか必要としないことを示す。
このパラメータは拡散モデルの逆過程の認知段階に組み込まれている。
この単純なアプローチでは、モデルの再訓練やアーキテクチャの変更を必要とせず、無視できる計算オーバーヘッドを発生させるが、生成された出力の細部を正確に制御できる。
さらに、空間マスクや様々な$\omega$値のデノナイズスケジュールを適用して、領域固有またはタイムステップ固有粒度制御を実現することができる。
外部制御信号や参照画像は正確な$\omega$マスクの作成を誘導し、ターゲットの粒度調整を可能にする。
その単純さにもかかわらず、この手法は様々な画像およびビデオ合成タスクにおいて印象的な性能を示し、高度な拡散モデルに適用可能である。
コードはhttps://github.com/itsmag11/Omegance.comで公開されている。
関連論文リスト
- Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability [34.888135351211616]
MaskUNetは、パラメータ番号を無視して生成品質を向上する、単純で効果的なメソッド式MaskUNet'-である。
トレーニングベースのアプローチと、カスタマイズされたネットワークと最適化機能を含むトレーニングなしアプローチの2つの微調整戦略を提供します。
COCOデータセット上のゼロショット推論では、MaskUNetは最高のFIDスコアを獲得し、下流タスク評価におけるその効果をさらに示す。
論文 参考訳(メタデータ) (2025-05-06T01:14:20Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Enabling Versatile Controls for Video Diffusion Models [18.131652071161266]
VCtrlは、事前訓練されたビデオ拡散モデルのきめ細かい制御を可能にするように設計された新しいフレームワークである。
総合的な実験と人的評価により、VCtrlは制御性と生成品質を効果的に向上させる。
論文 参考訳(メタデータ) (2025-03-21T09:48:00Z) - Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise [19.422355461775343]
我々は、構造化潜在雑音サンプリングによる動き制御を可能とし、映像拡散モデルを強化した。
本稿では,ランダムな時空間のガウス性と相関した雑音を置き換え,リアルタイムに動作可能な新しいノイズワープアルゴリズムを提案する。
提案アルゴリズムの効率性により,ワープノイズを最小限のオーバーヘッドで使用することで,最新の映像拡散ベースモデルを微調整することができる。
論文 参考訳(メタデータ) (2025-01-14T18:59:10Z) - Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - MaskControl: Spatio-Temporal Control for Masked Motion Synthesis [38.16884934336603]
生成マスク運動モデルに制御性を導入するための最初のアプローチであるMaskControlを提案する。
まず、textitLogits Regularizerは、トレーニング時に暗黙的にロジットを摂り、モーショントークンの分布を制御された関節位置と整列させる。
第2に、textitLogit最適化は、生成した動きを制御された関節位置と正確に一致させるトークン分布を明示的に再設定する。
論文 参考訳(メタデータ) (2024-10-14T17:50:27Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - SCEdit: Efficient and Controllable Image Diffusion Generation via Skip
Connection Editing [18.508719350413802]
SCEdit と呼ばれる,Skip Connection を統合し編集する効率的な生成チューニングフレームワークを提案する。
SCEditはトレーニングパラメータ、メモリ使用量、計算コストを大幅に削減する。
テキスト・ツー・イメージ生成と制御可能な画像合成タスクの実験は、効率と性能の観点から、本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-12-18T17:54:14Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Readout Guidance: Learning Control from Diffusion Features [96.22155562120231]
本稿では,学習信号を用いたテキスト・画像拡散モデル制御手法であるReadout Guidanceを提案する。
Readout Guidanceはリードアウトヘッドを使用し、トレーニング済みの凍結拡散モデルの特徴から信号を取り出すために訓練された軽量ネットワークである。
これらの読み出しは、ポーズ、深さ、エッジなどのシングルイメージ特性や、対応性や外観類似性といった複数の画像に関連する高次特性を符号化することができる。
論文 参考訳(メタデータ) (2023-12-04T18:59:32Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。