Fugu-MT 論文翻訳(概要): Geometry-Aware Image Flow Matching

論文の概要: Geometry-Aware Image Flow Matching

arxiv url: http://arxiv.org/abs/2605.25294v1
Date: Sun, 24 May 2026 23:13:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:19.125056
Title: Geometry-Aware Image Flow Matching
Title（参考訳）: 幾何学的画像フローマッチング
Authors: Junho Lee, Kwanseok Kim, Joonseok Lee,
Abstract要約: 我々は,意味情報を方向成分に符号化し,標準成分を世界平均で近似できることを示す。本稿では, 角距離を利用した球面輸送フローマッチング (SOT-CFM) と, 多様体上の力学を直接制約する球面流動マッチング (SFM) を導入する。
参考スコア（独自算出の注目度）: 27.47409979324549
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in generative models highlight the power of geometry-aware modeling in manifold-constrained settings. Yet, for natural images, the field remains confined to Euclidean assumptions, failing to exploit the potential of intrinsic geometric structures within the data. In this work, we investigate the geometry of natural images and observe that semantic information is predominantly encoded in directional components, while norm components can be approximated by the global average. This property holds across both RGB and latent spaces, suggesting that natural images can be effectively modeled on a hypersphere. Building on this finding, we introduce Spherical Optimal Transport Flow Matching (SOT-CFM), which utilizes angular distance, and Spherical Flow Matching (SFM), which constrains dynamics directly on the manifold. Our experiments demonstrate that these geometry-aware methods achieve superior performance against Euclidean baselines. Ultimately, this work provides a novel perspective that bridges the gap between Riemannian manifold-based modeling and natural image generation.
Abstract（参考訳）: 生成モデルの最近の進歩は、多様体制約環境における幾何認識モデリングの力を強調している。しかし、自然画像の場合、フィールドはユークリッドの仮定に限られており、データの内在的な幾何学的構造の可能性を利用することができない。本研究では,自然画像の幾何学を考察し,意味情報が主に方向成分に符号化されているのに対して,標準成分はグローバル平均で近似できることを示す。この性質はRGB空間と潜在空間の両方に存在し、自然像を超球面上で効果的にモデル化できることを示唆している。そこで本研究では, 角距離を利用した球面輸送フローマッチング (SOT-CFM) と, 多様体上の力学を直接制約する球面流動マッチング (SFM) を導入する。本実験は,これらの幾何認識手法がユークリッド基底線に対して優れた性能を発揮することを示す。最終的に、この研究はリーマン多様体に基づくモデリングと自然な画像生成の間のギャップを埋める新しい視点を提供する。

関連論文リスト

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文参考訳（メタデータ） (2025-06-13T16:19:00Z)
Follow the Energy, Find the Path: Riemannian Metrics from Energy-Based Models [63.331590876872944]
本稿では,事前学習したエネルギーベースモデルから直接リーマン計量を導出する手法を提案する。これらの測度は空間的に異なる距離を定義し、測地学の計算を可能にする。 EBM由来のメトリクスは、確立されたベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-05-23T12:18:08Z)
What's Inside Your Diffusion Model? A Score-Based Riemannian Metric to Explore the Data Manifold [0.053713376045563095]
スコアに基づくリーマン計量を導入し、データ多様体の内在幾何学を特徴づける。我々のアプローチは、測地学が自然に多様体の輪郭に従う幾何学を生成する。我々のスコアに基づく測地学は、基礎となるデータ分布を尊重する有意義な垂直変換を捉えていることを示す。
論文参考訳（メタデータ） (2025-05-16T11:19:57Z)
Geometric Trajectory Diffusion Models [58.853975433383326]
生成モデルは3次元幾何学システムの生成において大きな可能性を示してきた。既存のアプローチは静的構造のみで動作し、物理系は常に自然界において動的であるという事実を無視する。本研究では3次元軌跡の時間分布をモデル化する最初の拡散モデルである幾何軌道拡散モデル(GeoTDM)を提案する。
論文参考訳（メタデータ） (2024-10-16T20:36:41Z)
SphereDiffusion: Spherical Geometry-Aware Distortion Resilient Diffusion Model [63.685132323224124]
制御可能な球状パノラマ画像生成は、様々な領域でかなりの応用可能性を持っている。本稿では,これらの課題に対処するために,SphereDiffusionの新しいフレームワークを提案する。 Structured3Dデータセットの実験では、SphereDiffusionは制御可能な球面画像生成の品質を大幅に改善し、平均して約35%のFIDを相対的に削減している。
論文参考訳（メタデータ） (2024-03-15T06:26:46Z)
Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文参考訳（メタデータ） (2023-07-11T16:51:38Z)
The Geometry of Deep Generative Image Models and its Applications [0.0]
generative adversarial networks (gans) は、実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。潜在空間の構造は、その高い寸法性と発電機の非線形性のために内挿しが困難である。
論文参考訳（メタデータ） (2021-01-15T07:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。