論文の概要: Aligning Latent Geometry for Spherical Flow Matching in Image Generation
- arxiv url: http://arxiv.org/abs/2605.15193v1
- Date: Thu, 14 May 2026 17:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.017622
- Title: Aligning Latent Geometry for Spherical Flow Matching in Image Generation
- Title(参考訳): 画像生成における球面流の整合性を考慮した遅延幾何
- Authors: Tuna Han Salih Meral, Kaan Oktay, Hidir Yesiltepe, Adil Kaan Akan, Pinar Yanardag,
- Abstract要約: 知覚的内容と意味的内容は、主に方向によって運ばれ、半径がはるかに少ないことが示される。
一致したトレーニングでは、異なる画像トークンー間でクラス条件のImageNet-256 FIDを一貫して改善する。
- 参考スコア(独自算出の注目度): 15.899488263212442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent flow matching for image generation usually transports Gaussian noise to variational autoencoder latents along linear paths. Both endpoints, however, concentrate in thin spherical shells, and a Euclidean chord leaves those shells even when preprocessing aligns their radii. By decomposing each latent token into radial and angular components, we show through component-swap probes that decoded perceptual and semantic content is carried predominantly by direction, with radius contributing much less. We therefore project data latents onto a fixed token radius, use the radial projection of Gaussian noise as the spherical prior, finetune the decoder with the encoder frozen, and replace linear interpolation with spherical linear interpolation. The resulting geodesic paths stay on the sphere at every timestep, and their velocity targets are purely angular by construction. Under matched training, the method consistently improves class-conditional ImageNet-256 FID across different image tokenizers, leaves the diffusion architecture unchanged, and requires no auxiliary encoder or representation-alignment objective.
- Abstract(参考訳): 画像生成のための潜時流マッチングは、通常、ガウスノイズを線形経路に沿って変分オートエンコーダ潜時へ輸送する。
しかし、両端は細い球状殻に集中しており、ユークリッド弦は前処理で半径が整った場合でもこれらの殻を残している。
各潜伏トークンを放射状および角状成分に分解することにより、知覚的および意味的内容の復号化が主に方向によって行われることを示し、半径ははるかに少ない。
したがって、固定されたトークン半径に遅延データを投影し、ガウス雑音の放射射影を球面先行として使用し、復号器を凍結したエンコーダで微調整し、線形補間を球面線形補間に置き換える。
得られた測地線経路は各時刻に球面に留まり、その速度目標は構成によって純粋に角である。
一致したトレーニングの下では、異なる画像トークンーザにまたがるクラス条件のImageNet-256 FIDを一貫して改善し、拡散アーキテクチャをそのままにし、補助エンコーダや表現調整の目的を必要としない。
関連論文リスト
- Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-13T16:19:00Z) - Geometry Field Splatting with Gaussian Surfels [23.412129038089326]
我々は、最近の研究で提案された不透明曲面の幾何学的場を利用して、体積密度に変換することができる。
ガウス核やウェーバを体積よりも幾何場に適応させ、不透明な固体の正確な再構成を可能にする。
広範に使用されているデータセット上で再構成された3次元表面の質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-11-26T03:07:05Z) - Neural Octahedral Field: Octahedral prior for simultaneous smoothing and sharp edge regularization [9.167571374234166]
そこで本研究では,オクタヘドラル場(Octahedral field)の新たな変種下での表面再構成を導くことを提案する。
暗黙の幾何とともに八面体を同時に嵌め、滑らかにすることで、二元フィルタリングと類似して振る舞う。
提案手法は, 様々な実験において, 従来型, ニューラルなアプローチより優れている。
論文 参考訳(メタデータ) (2024-08-01T06:02:59Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [52.23806040289676]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - NeuRBF: A Neural Fields Representation with Adaptive Radial Basis
Functions [93.02515761070201]
本稿では,信号表現に一般放射状基底を用いる新しいタイプのニューラルネットワークを提案する。
提案手法は, 空間適応性が高く, ターゲット信号により密着可能な, フレキシブルなカーネル位置と形状を持つ一般ラジアルベース上に構築する。
ニューラルラジアンス場再構成に適用した場合,本手法はモデルサイズが小さく,訓練速度が同等である最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2023-09-27T06:32:05Z) - Learning Continuous Rotation Canonicalization with Radial Beam Sampling [2.8935588665357077]
放射光を用いた画像標準化モデルであるショートBICを提案する。
我々のモデルは、最大連続角度回帰を可能にし、任意の中心回転入力画像の正準化を可能にする。
事前処理モデルとして、モデルに依存しない回転に敏感な下流予測を備えた回転不変ビジョンパイプラインを実現する。
論文 参考訳(メタデータ) (2022-06-21T19:12:06Z) - Path Guiding Using Spatio-Directional Mixture Models [1.6746303554275583]
経路アルゴリズムにおける光パス構築のための学習に基づく手法を提案する。
我々は、インシデント放射をオンライントレーニングされた5ドルの混合品として近似した。
論文 参考訳(メタデータ) (2021-11-25T14:16:13Z) - Leveraging Spatial and Photometric Context for Calibrated Non-Lambertian
Photometric Stereo [61.6260594326246]
空間と測光の両方を同時に活用できる効率的な完全畳み込みアーキテクチャを提案する。
分離可能な4D畳み込みと2D熱マップを使うことで、サイズが小さくなり、効率が向上する。
論文 参考訳(メタデータ) (2021-03-22T18:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。