論文の概要: ELROND: Exploring and decomposing intrinsic capabilities of diffusion models
- arxiv url: http://arxiv.org/abs/2602.10216v1
- Date: Tue, 10 Feb 2026 19:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.237803
- Title: ELROND: Exploring and decomposing intrinsic capabilities of diffusion models
- Title(参考訳): ELROND:拡散モデルの内在的能力の探索と分解
- Authors: Paweł Skierś, Tomasz Trzciński, Kamil Deja,
- Abstract要約: 拡散モデルに渡される単一のテキストプロンプトは、プロセスによってのみ決定される幅広い視覚出力をもたらす。
本稿では,これらの意味的方向を入力埋め込み内で直接アンタングルするフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.656403721249365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A single text prompt passed to a diffusion model often yields a wide range of visual outputs determined solely by stochastic process, leaving users with no direct control over which specific semantic variations appear in the image. While existing unsupervised methods attempt to analyze these variations via output features, they omit the underlying generative process. In this work, we propose a framework to disentangle these semantic directions directly within the input embedding space. To that end, we collect a set of gradients obtained by backpropagating the differences between stochastic realizations of a fixed prompt that we later decompose into meaningful steering directions with either Principal Components Analysis or Sparse Autoencoder. Our approach yields three key contributions: (1) it isolates interpretable, steerable directions for precise, fine-grained control over a single concept; (2) it effectively mitigates mode collapse in distilled models by reintroducing lost diversity; and (3) it establishes a novel estimator for concept complexity under a specific model, based on the dimensionality of the discovered subspace.
- Abstract(参考訳): 拡散モデルに渡される単一のテキストプロンプトは、しばしば確率的プロセスによってのみ決定される幅広い視覚的出力をもたらす。
既存の教師なしの手法は、出力特徴によってこれらのバリエーションを解析しようとするが、根底にある生成過程を省略する。
本研究では,入力埋め込み空間内でこれらの意味的方向を直接アンタングルするフレームワークを提案する。
そこで我々は,固定プロンプトの確率的実現の相違を逆伝搬して得られる勾配の集合を収集し,後に主成分分析あるいはスパースオートエンコーダを用いて有意義な操舵方向へ分解する。
提案手法は,(1) 単一概念の精密かつきめ細かな制御のために解釈可能な方向を分離し,(2) 失われた多様性を再導入することによって蒸留モデルにおけるモード崩壊を効果的に軽減し,(3) 発見部分空間の次元性に基づいて,特定のモデルの下で概念複雑性の新たな推定器を確立する。
関連論文リスト
- Diffusing Differentiable Representations [60.72992910766525]
本稿では,事前学習した拡散モデルを用いて,微分可能な表現(拡散)をサンプリングする,新しい学習自由な手法を提案する。
差分によって引き起こされるサンプルに対する暗黙の制約を特定し、この制約に対処することで、生成されたオブジェクトの一貫性と詳細が大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-12-09T20:42:58Z) - A Diffusion Model Framework for Unsupervised Neural Combinatorial Optimization [23.972397132797116]
現在のディープラーニングアプローチは、正確なサンプル確率を生み出す生成モデルに依存している。
この研究は、この制限を解除し、高度に表現力のある潜在変数モデルを採用する可能性を開放する手法を導入する。
我々は,データフリーなコンビネーション最適化におけるアプローチを実験的に検証し,幅広いベンチマーク問題に対して新しい最先端の手法を実現することを実証した。
論文 参考訳(メタデータ) (2024-06-03T17:55:02Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。