論文の概要: The Unreasonable Effectiveness of Guidance for Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.10257v1
- Date: Fri, 15 Nov 2024 15:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:48.099066
- Title: The Unreasonable Effectiveness of Guidance for Diffusion Models
- Title(参考訳): 拡散モデルにおける誘導の合理的な有効性
- Authors: Tim Kaiser, Nikolas Adaloglou, Markus Kollmann,
- Abstract要約: 本研究では,最先端指導手法と競合する生成性能が達成可能であることを示す。
我々は、その受容場を制約することで、プライマリモデル自体を誘導するスライディングウィンドウ誘導(SWG)と呼ぶ。
- 参考スコア(独自算出の注目度): 1.597617022056624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guidance is an error-correcting technique used to improve the perceptual quality of images generated by diffusion models. Typically, the correction is achieved by linear extrapolation, using an auxiliary diffusion model that has lower performance than the primary model. Using a 2D toy example, we show that it is highly beneficial when the auxiliary model exhibits similar errors as the primary one but stronger. We verify this finding in higher dimensions, where we show that competitive generative performance to state-of-the-art guidance methods can be achieved when the auxiliary model differs from the primary one only by having stronger weight regularization. As an independent contribution, we investigate whether upweighting long-range spatial dependencies improves visual fidelity. The result is a novel guidance method, which we call sliding window guidance (SWG), that guides the primary model with itself by constraining its receptive field. Intriguingly, SWG aligns better with human preferences than state-of-the-art guidance methods while requiring neither training, architectural modifications, nor class conditioning. The code will be released.
- Abstract(参考訳): ガイダンスは拡散モデルによって生成された画像の知覚的品質を改善するために使用される誤り訂正技術である。
通常、補正は一次モデルよりも低い性能を持つ補助拡散モデルを用いて線形補間によって達成される。
2次元玩具の例を用いて、補助モデルが一次モデルと類似の誤差を示すが、より強い誤差を示す場合、非常に有益であることを示す。
そこで我々は, 補助モデルが主モデルと異なる場合のみ, より強い重み正規化を行うことで, 最先端ガイダンス手法に対する競合生成性能が達成できることを検証した。
独立した貢献として、長距離空間依存の重み付けが視覚的忠実度を向上させるかどうかを検討する。
その結果、スライディングウインドウ誘導(SWG)と呼ばれる新しい誘導法が、その受容場を制約することによって、プライマリモデル自体を誘導する。
興味深いことにSWGは、トレーニング、アーキテクチャの変更、クラス条件付けを必要とせず、最先端のガイダンス手法よりも人間の好みと整合している。
コードはリリースされます。
関連論文リスト
- Steering Guidance for Personalized Text-to-Image Diffusion Models [19.550718192994353]
既存のサンプリングガイダンス手法では、出力をバランスの取れた空間へ誘導することができない。
我々は、ヌルテキストプロンプトに条件付き未学習弱モデルを活用する、単純で効果的なパーソナライズガイダンスを提案する。
本手法は,余分な計算オーバーヘッドを伴わずに,バランスの取れた潜在空間への出力を明示的に制御する。
論文 参考訳(メタデータ) (2025-08-01T05:02:26Z) - Learning Diffusion Models with Flexible Representation Guidance [49.26046407886349]
本稿では,表現指導を拡散モデルに組み込むための体系的枠組みを提案する。
拡散モデルにおける表現アライメントを強化するための2つの新しい戦略を導入する。
画像、タンパク質配列、分子生成タスクにわたる実験は、優れた性能を示し、訓練を加速する。
論文 参考訳(メタデータ) (2025-07-11T19:29:02Z) - How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models [57.42800112251644]
我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-10T02:09:48Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Domain Guidance: A Simple Transfer Approach for a Pre-trained Diffusion Model [62.11981915549919]
ドメインガイダンス(Domain Guidance)は、トレーニング済みの知識を活用して、サンプリングプロセスを対象のドメインに誘導する移行アプローチである。
FIDは19.6%改善し、FD$_textDINOv2$は23.4%改善した。
論文 参考訳(メタデータ) (2025-04-02T09:07:55Z) - Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers [4.015569252776372]
ArchonViewは,3Dレンダリングデータのみをスクラッチからトレーニングし,2D事前トレーニングを行わないにも関わらず,最先端のメソッドをはるかに上回る方法である。
また,従来の手法が失敗する難易度カメラにも頑健な性能を示し,拡散よりも推論速度が数倍高速であることを示す。
論文 参考訳(メタデータ) (2025-03-17T17:59:59Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - TESS 2: A Large-Scale Generalist Diffusion Language Model [24.91689676432666]
TESS 2は命令追従拡散言語モデルであり、命令追従拡散モデルより優れている。
適応学習とベースモデルの選択は,優れた指示追従拡散モデルの訓練に不可欠であることがわかった。
モデル出力の調整を基礎となるモデルのトレーニングを必要とせずに行うための,新しい,モジュール型の推論時ガイダンス手法である報奨ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-02-19T17:50:31Z) - Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance [12.973835034100428]
本稿では, SNOOPIについて述べる。SNOOPIは, トレーニングと推論の双方において, ワンステップ拡散モデルのガイダンスを高めるために設計された新しいフレームワークである。
両教師モデルの指導尺度を変化させることで、出力分布を拡大し、より堅牢なVSD損失が発生し、SBは競争性能を維持しつつ、多様なバックボーンを効果的に実行できる。
第2に、負のプロンプトを1段階拡散モデルに統合して、生成した画像中の望ましくない要素を抑圧する、負のアウェイステア注意(Negative-Away Steer Attention, NASA)と呼ばれるトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z) - David and Goliath: Small One-step Model Beats Large Diffusion with Score Post-training [8.352666876052616]
Diff-Instruct* (DI*) は1ステップのテキスト・ツー・イメージ生成モデルのためのデータ効率のよいポストトレーニング手法である。
提案手法は,人的フィードバックからオンライン強化学習としてアライメントを行う。
我々の2.6B emphDI*-SDXL-1stepモデルは、50ステップのFLUX-devモデルより優れている。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。
オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。
提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文 参考訳(メタデータ) (2024-06-04T04:22:47Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Foundational GPT Model for MEG [3.524869467682149]
本研究では,脳信号の予測を用いて学習可能な2種類のディープラーニング基礎モデルを提案する。
まず、改良されたWavenetを検討し、次に、改良されたTransformer-based (GPT2)モデルを検討する。
我々は,これらのディープラーニングモデルの性能を,MEGデータに基づく標準的な線形自己回帰(AR)モデルと比較する。
論文 参考訳(メタデータ) (2024-04-14T13:48:24Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [49.80911683739506]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Structural Pruning for Diffusion Models [65.02607075556742]
Diff-Pruningは、既存のものから軽量拡散モデルの学習に適した効率的な圧縮手法である。
複数のデータセットにまたがって実施した経験的評価は,提案手法の2つの利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-05-18T12:38:21Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。