論文の概要: TCFG: Tangential Damping Classifier-free Guidance
- arxiv url: http://arxiv.org/abs/2503.18137v1
- Date: Sun, 23 Mar 2025 16:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:27.961491
- Title: TCFG: Tangential Damping Classifier-free Guidance
- Title(参考訳): TCFG:Tangential Damping Classifier-free Guidance
- Authors: Mingi Kwon, Shin seong Kim, Jaeseok Jeong. Yi Ting Hsiao, Youngjung Uh,
- Abstract要約: 拡散モデルはテキストと画像の合成において顕著な成功を収めた。
本研究では,非条件スコアの幾何学的視点を利用してCFG性能を向上させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 11.151372758700619
- License:
- Abstract: Diffusion models have achieved remarkable success in text-to-image synthesis, largely attributed to the use of classifier-free guidance (CFG), which enables high-quality, condition-aligned image generation. CFG combines the conditional score (e.g., text-conditioned) with the unconditional score to control the output. However, the unconditional score is in charge of estimating the transition between manifolds of adjacent timesteps from $x_t$ to $x_{t-1}$, which may inadvertently interfere with the trajectory toward the specific condition. In this work, we introduce a novel approach that leverages a geometric perspective on the unconditional score to enhance CFG performance when conditional scores are available. Specifically, we propose a method that filters the singular vectors of both conditional and unconditional scores using singular value decomposition. This filtering process aligns the unconditional score with the conditional score, thereby refining the sampling trajectory to stay closer to the manifold. Our approach improves image quality with negligible additional computation. We provide deeper insights into the score function behavior in diffusion models and present a practical technique for achieving more accurate and contextually coherent image synthesis.
- Abstract(参考訳): 拡散モデルは、高品質な条件整合画像生成を可能にする分類器フリーガイダンス(CFG)を使用することによって、テキストと画像の合成において顕著な成功を収めた。
CFGは条件スコア(例えば、テキスト条件付き)と無条件スコアを組み合わせて出力を制御する。
しかし、非条件スコアは、隣接する時間ステップの多様体間の遷移を$x_t$から$x_{t-1}$に推定する責任を負う。
本研究では,非条件スコアの幾何学的視点を利用して,条件スコアが利用できる場合のCFG性能を向上させる手法を提案する。
具体的には,特異値分解を用いた条件値と条件値の両方の特異ベクトルをフィルタする手法を提案する。
このフィルタリングプロセスは、無条件スコアと条件スコアとを一致させ、サンプリング軌道を精製し、多様体に近づき続ける。
提案手法は画像の質を付加的な計算で改善する。
拡散モデルにおけるスコア関数の挙動についてより深い知見を提供し、より正確で文脈的に整合した画像合成を実現するための実践的手法を提案する。
関連論文リスト
- Gradient-Free Classifier Guidance for Diffusion Model Sampling [4.450496470631169]
Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。
ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
論文 参考訳(メタデータ) (2024-11-23T00:22:21Z) - Text-Anchored Score Composition: Tackling Condition Misalignment in Text-to-Image Diffusion Models [35.02969643344228]
既存のモデルの制御性を改善するために,テキストアンコールスコア合成(TASC)と呼ばれる学習自由アプローチを提案する。
そこで本研究では,これらを個別に計算した結果に対して,新たな競合を回避するためのクロスアテンション機構を用いてアテンション操作を提案する。
論文 参考訳(メタデータ) (2023-06-26T03:48:15Z) - EGC: Image Generation and Classification via a Diffusion Energy-Based
Model [59.591755258395594]
この研究は、エネルギーベースの分類器とジェネレータ、すなわちEMCを導入し、単一のニューラルネットワークを使用して両方のタスクで優れたパフォーマンスを実現する。
EGCはImageNet-1k、CelebA-HQ、LSUN Churchの最先端アプローチと比較して、競争力のある生成結果を達成している。
この研究は、ネットワークパラメータの単一セットを使用して両方のタスクを同時に実行しようとする最初の試みである。
論文 参考訳(メタデータ) (2023-04-04T17:59:14Z) - Contrastive Model Adaptation for Cross-Condition Robustness in Semantic
Segmentation [58.17907376475596]
意味的セグメンテーションのための正規-逆条件モデル適応について検討する。
提案手法は, コントラスト学習を通じて条件不変の特徴を学習するために, このような画像ペアを利用する。
いくつかの正規-逆適応ベンチマークにおけるモデル適応のための最先端セマンティックセマンティックセマンティクス性能を実現する。
論文 参考訳(メタデータ) (2023-03-09T11:48:29Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Optimized latent-code selection for explainable conditional
text-to-image GANs [8.26410341981427]
本稿では,条件付きテキスト・ツー・イメージGANモデルの潜時空間と意味空間を深く検討する様々な手法を提案する。
本稿では,線形SVMを用いて,優れた潜在コードを見つけるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-27T03:12:55Z) - Are conditional GANs explicitly conditional? [0.0]
本稿では,条件付きジェネレーティブ・アドバイザリ・ネットワーク(cGAN)に対する2つのコントリビューションを提案する。
最初の主な貢献は、cGANの分析であり、それらが明示的に条件付きでないことを示すものである。
第2のコントリビューションは、アコントラリオと呼ばれる新しい手法であり、敵アーキテクチャの両部分の条件性を明示的にモデル化する。
論文 参考訳(メタデータ) (2021-06-28T22:49:27Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。