論文の概要: Self-Attention Decomposition For Training Free Diffusion Editing
- arxiv url: http://arxiv.org/abs/2510.22650v1
- Date: Sun, 26 Oct 2025 12:22:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.311951
- Title: Self-Attention Decomposition For Training Free Diffusion Editing
- Title(参考訳): 自由拡散編集のための自己注意分解
- Authors: Tharun Anand, Mohammad Hassan Vali, Arno Solin,
- Abstract要約: 制御可能性への重要なステップは、モデルの潜在表現における解釈可能な方向を特定することである。
本研究では,拡散モデルの事前学習パラメータから直接意味的編集方向を導出する解析手法を提案する。
- 参考スコア(独自算出の注目度): 18.8152476816527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models achieve remarkable fidelity in image synthesis, yet precise control over their outputs for targeted editing remains challenging. A key step toward controllability is to identify interpretable directions in the model's latent representations that correspond to semantic attributes. Existing approaches for finding interpretable directions typically rely on sampling large sets of images or training auxiliary networks, which limits efficiency. We propose an analytical method that derives semantic editing directions directly from the pretrained parameters of diffusion models, requiring neither additional data nor fine-tuning. Our insight is that self-attention weight matrices encode rich structural information about the data distribution learned during training. By computing the eigenvectors of these weight matrices, we obtain robust and interpretable editing directions. Experiments demonstrate that our method produces high-quality edits across multiple datasets while reducing editing time significantly by 60% over current benchmarks.
- Abstract(参考訳): 拡散モデルは画像合成において顕著な忠実性を達成するが、ターゲットとなる編集のための出力を正確に制御することは依然として困難である。
制御可能性への重要なステップは、セマンティック属性に対応するモデルの潜在表現における解釈可能な方向を特定することである。
解釈可能な方向を見つけるための既存のアプローチは、通常、大量の画像のサンプリングや、効率を制限する補助ネットワークの訓練に頼っている。
本研究では,拡散モデルの事前学習パラメータから直接意味的な編集方向を導出し,追加データや微調整を必要としない解析手法を提案する。
私たちの洞察では、自己注意重み行列は、トレーニング中に学んだデータ分布に関する豊富な構造情報をエンコードしている。
これらの重み行列の固有ベクトルを計算することにより、頑健で解釈可能な編集方向を得る。
実験により,提案手法は複数のデータセットにまたがって高品質な編集を行うとともに,現在のベンチマークに比べて編集時間を60%削減できることがわかった。
関連論文リスト
- Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。
それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。
現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。
ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:57Z) - Cross-Subject Mind Decoding from Inaccurate Representations [42.19569985029642]
正確なデコード表現予測のためのBi Autoencoder Intertwiningフレームワークを提案する。
本手法は,定性評価と定量的評価の両方において,ベンチマークデータセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-25T08:45:02Z) - Active Learning Inspired ControlNet Guidance for Augmenting Semantic Segmentation Datasets [15.786823017952122]
ControlNetは、地上の真実セグメンテーションマスクと生成された画像内容との正確なアライメントを可能にする。
本稿では,アクティブな学習に基づく選択指標を後方拡散プロセスに統合するための最初のアプローチを提案する。
誘導合成データを用いて訓練されたセグメンテーションモデルは、非誘導合成データで訓練されたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-12T10:09:27Z) - InvDiff: Invariant Guidance for Bias Mitigation in Diffusion Models [28.51460282167433]
拡散モデルは、非常にデータ駆動であり、現実世界のデータに存在する不均衡とバイアスを継承する傾向がある。
拡散誘導のための不変意味情報学習を目的としたフレームワークInvDiffを提案する。
InvDiffは、画像生成の品質を維持しながら、バイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-12-11T15:47:11Z) - Informed Correctors for Discrete Diffusion Models [27.295990499157814]
離散拡散モデルに対する予測・相関型サンプリング手法を提案する。
情報補正器は,誤差が少なく,FIDスコアが向上した優れたサンプルを連続的に生成することを示す。
本結果は,離散拡散を用いた高速かつ高忠実な生成のための情報補正器の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-07-30T23:29:29Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Self-Conditioned Generative Adversarial Networks for Image Editing [61.50205580051405]
Generative Adversarial Networks (GAN) はバイアスの影響を受けやすい。
我々は、このバイアスが公平性だけでなく、分布のコアから逸脱する際の潜在トラバース編集手法の崩壊に重要な役割を果たしていると論じる。
論文 参考訳(メタデータ) (2022-02-08T18:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。