論文の概要: JEDI: The Force of Jensen-Shannon Divergence in Disentangling Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.19166v2
- Date: Wed, 23 Jul 2025 12:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 14:06:49.277901
- Title: JEDI: The Force of Jensen-Shannon Divergence in Disentangling Diffusion Models
- Title(参考訳): JEDI:遠方拡散モデルにおけるジェンセン・シャノン拡散力
- Authors: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann,
- Abstract要約: JEDIは、再訓練や外部監督を必要とせず、拡散モデルにおける主観的分離と構成的アライメントを高めるテスト時間適応手法である。
JEDIは、Jensen-Shannon分散に基づく新しい目的を用いて、注目地図における意味的絡み合いを最小化する。
- 参考スコア(独自算出の注目度): 22.220141314462513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce JEDI, a test-time adaptation method that enhances subject separation and compositional alignment in diffusion models without requiring retraining or external supervision. JEDI operates by minimizing semantic entanglement in attention maps using a novel Jensen-Shannon divergence based objective. To improve efficiency, we leverage adversarial optimization, reducing the number of updating steps required. JEDI is model-agnostic and applicable to architectures such as Stable Diffusion 1.5 and 3.5, consistently improving prompt alignment and disentanglement in complex scenes. Additionally, JEDI provides a lightweight, CLIP-free disentanglement score derived from internal attention distributions, offering a principled benchmark for compositional alignment under test-time conditions. Code and results are available at https://ericbill21.github.io/JEDI/.
- Abstract(参考訳): JEDIは、再訓練や外部監督を必要とせず、拡散モデルにおける主観的分離と構成的アライメントを高めるテスト時間適応手法である。
JEDIは、Jensen-Shannon分散に基づく新しい目的を用いて、注目地図における意味的絡み合いを最小化する。
効率を向上させるために、我々は敵の最適化を活用し、必要な更新手順の数を削減した。
JEDIはモデルに依存しず、Stable Diffusion 1.5や3.5のようなアーキテクチャに適用でき、複雑なシーンにおける迅速なアライメントとアンタングルを継続的に改善している。
さらにJEDIは、内部の注意分布から導かれる軽量でCLIPフリーなアンタングルメントスコアを提供し、テスト時間条件下でのコンポジションアライメントのための原則化されたベンチマークを提供する。
コードと結果はhttps://ericbill21.github.io/JEDI/で公開されている。
関連論文リスト
- Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding [26.416630784362525]
大規模言語モデル(LLM)は、攻撃的、偽り、あるいは無意味なコンテンツを生成するのを避けるために、人間の好みと整合する必要がある。
本稿では,ベースモデルのアライメント能力を高めるための新しいフレームワークであるWak-to-Strong Decoding (WSD)を提案する。
我々はまた、ドラフトモデルとして小さなPilot-3Bを微調整するための新しいデータセットGenAlignerも収集しています。
論文 参考訳(メタデータ) (2025-06-09T05:21:22Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Improving Compositional Generation with Diffusion Models Using Lift Scores [18.446708001933388]
本稿では,リフトスコアを用いた新しいリサンプリング基準を提案する。
生成したサンプルがそれぞれの条件に一致しているかを評価する。
次に、合成されたプロンプトが満たされているかどうかを決定するために結果を構成する。
論文 参考訳(メタデータ) (2025-05-19T21:34:42Z) - Efficient Diffusion Training through Parallelization with Truncated Karhunen-Loève Expansion [5.770347328961063]
拡散認知モデルは、トレーニング中に緩やかな収束に苦しむ。
本稿では,トレーニングとサンプリングのための新しい前向きプロセスを提案する。
本手法はベースライン拡散モデルより有意に優れている。
論文 参考訳(メタデータ) (2025-03-22T05:34:02Z) - Adding Additional Control to One-Step Diffusion with Joint Distribution Matching [58.37264951734603]
JDMは、画像-条件関節分布間の逆KL分散を最小化する新しいアプローチである。
トラクタブルな上限を導出することにより、JDMは条件学習から忠実度学習を分離する。
この非対称蒸留方式により,一段階の生徒が教師モデルに未知の制御を処理できるようになる。
論文 参考訳(メタデータ) (2025-03-09T15:06:50Z) - Offline Reinforcement Learning via Inverse Optimization [3.0586855806896054]
連続状態と行動空間のための新しいオフライン強化学習(ORL)アルゴリズムを提案する。
ORL問題でよく見られる分布変化を緩和するために、我々は頑健で非因果予測制御の専門家を用いる。
既存の文献と異なり、当社の堅牢なMPC専門家は、正確かつトラクタブルな凸修正を楽しみます。
論文 参考訳(メタデータ) (2025-02-27T12:11:44Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Rectified Diffusion Guidance for Conditional Generation [62.00207951161297]
CFGの背後にある理論を再検討し、組合せ係数の不適切な構成(すなわち、広く使われている和対1バージョン)が生成分布の期待シフトをもたらすことを厳密に確認する。
本稿では,誘導係数を緩和したReCFGを提案する。
このようにして、修正された係数は観測されたデータをトラバースすることで容易に事前計算でき、サンプリング速度はほとんど影響を受けない。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Debiasing Text-to-Image Diffusion Models [84.46750441518697]
学習ベースのテキスト・トゥ・イメージ(TTI)モデルは、さまざまなドメインで視覚コンテンツを生成する方法に革命をもたらした。
近年の研究では、現在最先端のTTIシステムに非無視的な社会的バイアスが存在することが示されている。
論文 参考訳(メタデータ) (2024-02-22T14:33:23Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - DiffEnc: Variational Diffusion with a Learned Encoder [14.045374947755922]
拡散過程にデータと深度に依存した平均関数を導入し,拡散損失を改良した。
提案するフレームワークであるDiffEncは,CIFAR-10の確率を統計的に有意に向上させる。
論文 参考訳(メタデータ) (2023-10-30T17:54:36Z) - Insights into Closed-form IPM-GAN Discriminator Guidance for Diffusion Modeling [11.68361062474064]
本稿では,GAN判別器がLangevinに基づくサンプリングに与える影響を理論的に解析する枠組みを提案する。
提案手法は既存の加速拡散技術と組み合わせて潜在空間画像生成を改善することができることを示す。
論文 参考訳(メタデータ) (2023-06-02T16:24:07Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Stable Target Field for Reduced Variance Score Estimation in Diffusion
Models [5.9115407007859755]
拡散モデルは、固定された前方拡散過程を反転させてサンプルを生成する。
このような分散の源泉は、中間雑音分散スケールの取り扱いにあると論じる。
より安定したトレーニングターゲットとして重み付けされた条件スコアを計算するために使用する参照バッチを組み込むことにより、この問題を修復することを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。