論文の概要: HEART: Hyperspherical Embedding Alignment via Kent-Representation Traversal in Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.07973v1
- Date: Fri, 08 May 2026 16:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.205426
- Title: HEART: Hyperspherical Embedding Alignment via Kent-Representation Traversal in Diffusion Models
- Title(参考訳): HEART:拡散モデルにおけるケント表現トラバースによる超球面埋め込みアライメント
- Authors: Arani Roy, Shristi Das Biswas, Kaushik Roy,
- Abstract要約: HEARTは、Kent対応の測地線変換をハイパースフィア上で直接実行する、トレーニング不要のフレームワークである。
その結果,線形から球面への視点の変化は,高速かつ制御可能な画像生成を可能にすることがわかった。
- 参考スコア(独自算出の注目度): 7.68494752148263
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image diffusion models can generate visually stunning images, yet, controlling what appears and how it appears, remains surprisingly difficult, especially when operating solely within the constraints of the text-conditioning space. For example, changing a subject or adjusting an attribute often leads to unintended side effects, such as altered backgrounds or distorted details. This is because most existing text-based control methods treat the embedding space as Euclidean and apply simple linear transformations, which do not reflect how semantic concepts are actually organized. In this work, we take a step back and ask: what is the true geometry of these embeddings? We find that text encoder representations lie on a hypersphere, where concepts are not linear directions but structured, anisotropic distributions better captured by Kent distributions. Building on this insight, we propose HEART, a training-free framework that performs Kent-aware geodesic transformations directly on the hypersphere. By respecting the underlying geometry, HEART enables intuitive and precise edits, such as consistent subject replacement and fine-grained attribute control, while preserving the original scene. Importantly, HEART requires no finetuning, inversion, or optimization, and generalizes across diffusion model architectures. Our results show that a simple shift in perspective, from linear to spherical, can unlock fast, and controllable image generation.
- Abstract(参考訳): テキストから画像への拡散モデルは、視覚的に素晴らしい画像を生成することができるが、何が見え、どのように見えるかを制御することは、特にテキストコンディショニング空間の制約の中でのみ動作する場合、驚くほど困難である。
例えば、主題の変更や属性の調整は、背景の変更や歪んだ詳細といった意図しない副作用につながることが多い。
これは、ほとんどの既存のテキストベースの制御手法が埋め込み空間をユークリッドとして扱い、単純な線形変換を適用しているためである。
この研究で、私たちは一歩後退して、埋め込みの真の幾何学は何ですか?
テキストエンコーダ表現は超球面上に存在し、概念は線形方向ではなく構造的であり、ケント分布によりより良い異方性分布が得られる。
この知見に基づいて,超球面上で直接ケント対応測地変換を行う学習自由フレームワークHEARTを提案する。
HEARTは、基礎となる幾何学を尊重することにより、元のシーンを保存しながら、一貫した主題置換やきめ細かい属性制御などの直感的で正確な編集を可能にする。
重要なことは、HEARTは微調整、反転、最適化を必要とせず、拡散モデルアーキテクチャ全体にわたって一般化する。
その結果,線形から球面への視点の変化は,高速かつ制御可能な画像生成を可能にすることがわかった。
関連論文リスト
- Self-Corrected Image Generation with Explainable Latent Rewards [55.29175717238288]
我々は、説明可能なLatent RewarDを通じて生成をガイドする自己修正フレームワークであるxLARDを提案する。
xLARDは、モデル生成参照からの構造化されたフィードバックに基づいて遅延表現を洗練する軽量な修正器を導入している。
実験により、xLARDは、生成前の状態を維持しながら、意味的アライメントと視覚的忠実性を改善することが示された。
論文 参考訳(メタデータ) (2026-03-26T02:59:35Z) - World-Shaper: A Unified Framework for 360° Panoramic Editing [57.174341220144605]
既存の視点に基づく画像編集手法ではパノラマの空間構造をモデル化できない。
一つの編集中心の設計にパノラマ生成と編集をブリッジする統合幾何認識フレームワークであるWorld-Shaperを提案する。
本手法はSOTA法と比較して, 幾何的整合性, 編集精度, テキスト制御性に優れる。
論文 参考訳(メタデータ) (2026-01-30T19:38:54Z) - Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文 参考訳(メタデータ) (2025-07-31T07:36:00Z) - Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing [8.719366108835638]
拡散モデルにおける局所的編集を高精度に行うために,教師なし,一段階の訓練不要なLow-rank Conntrollable Image Editor (LOCO Edit) を提案する。
本手法は,様々なテキスト・画像拡散モデルにおいて,教師なしあるいはテキスト・教師なしの編集に拡張することができる。
論文 参考訳(メタデータ) (2024-09-04T01:47:01Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Neural Parameterization for Dynamic Human Head Editing [26.071370285285465]
暗黙的手法と明示的手法の両方の利点を提供するハイブリッド表現であるニューラル化(NeP)を提案する。
NePは、シーンの幾何学と外観のきめ細かい編集を可能にしながら、写真リアリスティックなレンダリングを可能にする。
その結果,NePは高い編集性を維持しつつ,ほぼ同じレベルのレンダリング精度を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-01T05:25:52Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。