論文の概要: Which Way from B to A: The role of embedding geometry in image interpolation for Stable Diffusion
- arxiv url: http://arxiv.org/abs/2511.12757v1
- Date: Sun, 16 Nov 2025 19:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.5229
- Title: Which Way from B to A: The role of embedding geometry in image interpolation for Stable Diffusion
- Title(参考訳): B から A へのどちら : 安定拡散に対する画像補間における埋め込み幾何学の役割
- Authors: Nicholas Karris, Luke Durell, Javier Flores, Tegan Emerson,
- Abstract要約: 安定拡散は, コントラスト言語-画像事前学習行列の行に対して, 置換不変性を有することを示す。
このことは、これらの埋め込みが自然にユークリッド空間内の行列としてではなく、空間内の点雲として解釈できるという新しい観察にインスピレーションを与えた。
この最適輸送問題を解くことで、埋め込み空間を通してより自然で幾何学的に滑らかな遷移を捉える埋め込みの間の最短経路(または測地線)を計算する。
- 参考スコア(独自算出の注目度): 1.824185957798031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It can be shown that Stable Diffusion has a permutation-invariance property with respect to the rows of Contrastive Language-Image Pretraining (CLIP) embedding matrices. This inspired the novel observation that these embeddings can naturally be interpreted as point clouds in a Wasserstein space rather than as matrices in a Euclidean space. This perspective opens up new possibilities for understanding the geometry of embedding space. For example, when interpolating between embeddings of two distinct prompts, we propose reframing the interpolation problem as an optimal transport problem. By solving this optimal transport problem, we compute a shortest path (or geodesic) between embeddings that captures a more natural and geometrically smooth transition through the embedding space. This results in smoother and more coherent intermediate (interpolated) images when rendered by the Stable Diffusion generative model. We conduct experiments to investigate this effect, comparing the quality of interpolated images produced using optimal transport to those generated by other standard interpolation methods. The novel optimal transport--based approach presented indeed gives smoother image interpolations, suggesting that viewing the embeddings as point clouds (rather than as matrices) better reflects and leverages the geometry of the embedding space.
- Abstract(参考訳): 安定拡散は, コントラスト言語-画像事前学習 (CLIP) の組込み行列の行に対して, 置換不変性を有することを示すことができる。
このことは、これらの埋め込みが自然に、ユークリッド空間の行列としてではなく、ワッサーシュタイン空間の点雲として解釈できるという新しい観察にインスピレーションを与えた。
この観点は埋め込み空間の幾何学を理解する新しい可能性を開く。
例えば、2つの異なるプロンプトの埋め込みを補間する場合、補間問題を最適輸送問題として再フレーミングすることを提案する。
この最適輸送問題を解くことで、埋め込み空間を通してより自然で幾何学的に滑らかな遷移を捉える埋め込みの間の最短経路(または測地線)を計算する。
これにより、安定拡散生成モデルにより、より滑らかでコヒーレントな中間(補間)画像が得られる。
我々は,この効果について実験を行い,他の標準補間手法による最適輸送を用いた補間画像の品質を比較した。
提示された新しい最適輸送ベースのアプローチは、実際によりスムーズな画像補間を与え、埋め込みを(行列ではなく)点雲として見ることは、埋め込み空間の幾何学をよりよく反映し活用することを示唆している。
関連論文リスト
- AID: Attention Interpolation of Text-to-Image Diffusion [64.87754163416241]
AID(Attention Interpolation via Diffusion)という,トレーニング不要な手法を導入する。
AIDは補間された注意を自己注意と融合させ、忠実性を高める。
また,条件に依存した生成過程として,拡散による条件誘導注意補間(AID)も提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:05Z) - Point Cloud Classification via Deep Set Linearized Optimal Transport [51.99765487172328]
我々は,点雲をL2-$spaceに効率的に同時埋め込むアルゴリズムであるDeep Set Linearized Optimal Transportを紹介した。
この埋め込みはワッサーシュタイン空間内の特定の低次元構造を保持し、点雲の様々なクラスを区別する分類器を構成する。
我々は,有限個のラベル付き点雲を持つフローデータセットの実験を通じて,標準的な深層集合アプローチに対するアルゴリズムの利点を実証する。
論文 参考訳(メタデータ) (2024-01-02T23:26:33Z) - IMPUS: Image Morphing with Perceptually-Uniform Sampling Using Diffusion Models [24.382275473592046]
知覚一様サンプリング(IMPUS)を用いた拡散型画像形成手法を提案する。
IMPUSは画像対を与えられた滑らかで直接的で現実的な適応を生成する。
論文 参考訳(メタデータ) (2023-11-12T10:03:32Z) - Diffusion Posterior Illumination for Ambiguity-aware Inverse Rendering [63.24476194987721]
画像からシーン特性を推定する逆レンダリングは、困難な逆問題である。
既存のソリューションの多くは、プリエントを逆レンダリングパイプラインに組み込んで、プラウシブルなソリューションを奨励している。
本稿では,自然照明マップ上で事前学習した確率拡散モデルを最適化フレームワークに統合する手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T12:39:28Z) - Tensor Component Analysis for Interpreting the Latent Space of GANs [41.020230946351816]
本稿では,GANの潜在空間における解釈可能な方向を求める問題に対処する。
提案手法では,テンソルの個々のモードに対応する線形編集と,それらの間の乗法的相互作用をモデル化する非線形編集が可能である。
実験により, 前者は幾何に基づく変換から, 後者は拡張可能な変換を生成できることを示す。
論文 参考訳(メタデータ) (2021-11-23T09:14:39Z) - NeurInt : Learning to Interpolate through Neural ODEs [18.104328632453676]
本稿では,2つの画像間の軌跡分布を学習する新しい生成モデルを提案する。
提案手法の有効性を示すとともに,画像の品質向上と,実画像と対象画像の任意のペアに対して,スムーズな軌道上の多様な分布を学習する能力を示す。
論文 参考訳(メタデータ) (2021-11-07T16:31:18Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - FREDE: Linear-Space Anytime Graph Embeddings [12.53022591889574]
グラフのノードの低次元表現(埋め込み)は、データマイニング作業を容易にする。
FREquent Directions Embeddingは、類似度行列の行を個別に処理しながら、品質を反復的に改善するスケッチベースの手法である。
可変サイズのネットワークに対する評価は、FREDEがSVDと同等に動作し、多様なデータマイニングタスクにおける現在の最先端手法と競合することを示している。
論文 参考訳(メタデータ) (2020-06-08T16:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。