論文の概要: Guiding Diffusion with Deep Geometric Moments: Balancing Fidelity and Variation
- arxiv url: http://arxiv.org/abs/2505.12486v1
- Date: Sun, 18 May 2025 16:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.260629
- Title: Guiding Diffusion with Deep Geometric Moments: Balancing Fidelity and Variation
- Title(参考訳): 深部幾何学的モーメントによる拡散誘導:忠実度と変動のバランス
- Authors: Sangmin Jung, Utkarsh Nath, Yezhou Yang, Giulia Pedrielli, Joydeep Biswas, Amy Zhang, Hassan Ghasemzadeh, Pavan Turaga,
- Abstract要約: 本稿では,Deep Geometric Moments (DGM) を,学習前の幾何学的特徴とニュアンスをカプセル化した新しいガイダンスとして紹介する。
実験により,DGMは拡散画像生成における制御と多様性のバランスを効果的に保ち,拡散過程を制御するための柔軟な制御機構を実現できることが示された。
- 参考スコア(独自算出の注目度): 35.428991756584935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation models have achieved remarkable capabilities in synthesizing images, but often struggle to provide fine-grained control over the output. Existing guidance approaches, such as segmentation maps and depth maps, introduce spatial rigidity that restricts the inherent diversity of diffusion models. In this work, we introduce Deep Geometric Moments (DGM) as a novel form of guidance that encapsulates the subject's visual features and nuances through a learned geometric prior. DGMs focus specifically on the subject itself compared to DINO or CLIP features, which suffer from overemphasis on global image features or semantics. Unlike ResNets, which are sensitive to pixel-wise perturbations, DGMs rely on robust geometric moments. Our experiments demonstrate that DGM effectively balance control and diversity in diffusion-based image generation, allowing a flexible control mechanism for steering the diffusion process.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、画像の合成において顕著な能力を達成したが、出力のきめ細かい制御に苦慮することが多い。
分割写像や深度写像のような既存のガイダンスアプローチは、拡散モデル固有の多様性を制限する空間的剛性を導入する。
本研究では,Deep Geometric Moments (DGM) を,学習前の幾何学的特徴とニュアンスをカプセル化した新しいガイダンスとして紹介する。
DGMは、グローバルな画像機能やセマンティクスに過度に悩まされているDINOやCLIP機能と比較して、主題自体に特化している。
ピクセルの摂動に敏感なResNetsとは異なり、DGMは堅牢な幾何学的モーメントに依存している。
実験により,DGMは拡散画像生成における制御と多様性のバランスを効果的に保ち,拡散過程を制御するための柔軟な制御機構を実現できることが示された。
関連論文リスト
- Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - SphereDiffusion: Spherical Geometry-Aware Distortion Resilient Diffusion Model [63.685132323224124]
制御可能な球状パノラマ画像生成は、様々な領域でかなりの応用可能性を持っている。
本稿では,これらの課題に対処するために,SphereDiffusionの新しいフレームワークを提案する。
Structured3Dデータセットの実験では、SphereDiffusionは制御可能な球面画像生成の品質を大幅に改善し、平均して約35%のFIDを相対的に削減している。
論文 参考訳(メタデータ) (2024-03-15T06:26:46Z) - GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks [0.0]
複雑な幾何学的特徴を再現する画像生成モデルの永続的不備は、ほぼ10年間にわたって進行中の問題であった。
本稿では,この問題を幾何的能力の畳み込み層を拡大することにより緩和する方法について述べる。
本研究では,拡散モデル,GAN,変分オートエンコーダ(VAE)によって生成された画像の品質を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-03T19:27:20Z) - Few-shot Image Generation via Information Transfer from the Built
Geodesic Surface [2.617962830559083]
構築地表面からの情報伝達法(ITBGS)を提案する。
FAGSモジュールでは、トレーニングデータセットからPre-Shape Spaceにイメージ機能を投影することで、擬似ソースドメインが生成される。
提案手法は,多種多様なセマンティックなデータセットにまたがって,最適な,あるいは同等な結果が得られることを実証する。
論文 参考訳(メタデータ) (2024-01-03T13:57:09Z) - Curved Diffusion: A Generative Model With Optical Geometry Control [56.24220665691974]
最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。
本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T13:06:48Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - The Geometry of Deep Generative Image Models and its Applications [0.0]
generative adversarial networks (gans) は、実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。
これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。
潜在空間の構造は、その高い寸法性と発電機の非線形性のために内挿しが困難である。
論文 参考訳(メタデータ) (2021-01-15T07:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。