論文の概要: Graph Flow Matching: Enhancing Image Generation with Neighbor-Aware Flow Fields
- arxiv url: http://arxiv.org/abs/2505.24434v2
- Date: Wed, 04 Jun 2025 08:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.485047
- Title: Graph Flow Matching: Enhancing Image Generation with Neighbor-Aware Flow Fields
- Title(参考訳): グラフフローマッチング:近傍のフローフィールドによる画像生成の強化
- Authors: Md Shahriar Rahim Siddiqui, Moshe Eliasof, Eldad Haber,
- Abstract要約: フローマッチングはサンプル生成を,データにノイズを伝達する連続時間速度場学習として使用する。
学習速度を反応項に分解する軽量な拡張であるグラフフローマッチングを提案する。
事前訓練された変分オートエンコーダの潜伏空間で作動する。
- 参考スコア(独自算出の注目度): 7.435063833417364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow matching casts sample generation as learning a continuous-time velocity field that transports noise to data. Existing flow matching networks typically predict each point's velocity independently, considering only its location and time along its flow trajectory, and ignoring neighboring points. However, this pointwise approach may overlook correlations between points along the generation trajectory that could enhance velocity predictions, thereby improving downstream generation quality. To address this, we propose Graph Flow Matching (GFM), a lightweight enhancement that decomposes the learned velocity into a reaction term -- any standard flow matching network -- and a diffusion term that aggregates neighbor information via a graph neural module. This reaction-diffusion formulation retains the scalability of deep flow models while enriching velocity predictions with local context, all at minimal additional computational cost. Operating in the latent space of a pretrained variational autoencoder, GFM consistently improves Fr\'echet Inception Distance (FID) and recall across five image generation benchmarks (LSUN Church, LSUN Bedroom, FFHQ, AFHQ-Cat, and CelebA-HQ at $256\times256$), demonstrating its effectiveness as a modular enhancement to existing flow matching architectures.
- Abstract(参考訳): フローマッチングはサンプル生成を,データにノイズを伝達する連続時間速度場学習として使用する。
既存のフローマッチングネットワークは、流れの軌跡に沿った位置と時間のみを考慮して各点の速度を独立に予測し、隣接する点を無視する。
しかし、このポイントワイズアプローチは、速度予測を向上し、下流生成品質を向上させることができる生成軌道に沿った点間の相関を見落としてしまう可能性がある。
これを解決するために、我々は、学習速度を反応項(任意の標準フローマッチングネットワーク)に分解する軽量な拡張であるグラフフローマッチング(GFM)と、グラフニューラルモジュールを介して近隣情報を集約する拡散項を提案する。
この反応拡散の定式化は、深層流モデルのスケーラビリティを維持しつつ、局所的な文脈で速度予測を強化し、これらは全て最小の計算コストで行う。
事前訓練された変分オートエンコーダの潜時空間で動作するGFMは、Fr\'echet Inception Distance (FID)を一貫して改善し、5つの画像生成ベンチマーク(LSUN Church, LSUN Bedroom, FFHQ, AFHQ-Cat, CelebA-HQ at $256\times256$)でリコールし、既存のフローマッチングアーキテクチャのモジュール化としての有効性を示した。
関連論文リスト
- FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - Deeply Supervised Flow-Based Generative Models [16.953166973699577]
DeepFlowは、層間通信によるベロシティ表現を強化する新しいフレームワークである。
DeepFlowは内部のベロシティアライメントを通じて改善されたディープインスペクションによって駆動され、ImageNet上で同等のパフォーマンスで8倍高速に収束する。
DeepFlowはまた、MSCOCOとゼロショットGenEvalの評価によって証明されたように、テキストから画像生成タスクのベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-03-18T17:58:08Z) - Navigating Spatio-Temporal Heterogeneity: A Graph Transformer Approach for Traffic Forecasting [13.309018047313801]
交通予測はスマートシティの発展において重要な研究分野として浮上している。
最短時間相関のためのネットワークモデリングの最近の進歩は、パフォーマンスのリターンが低下し始めている。
これらの課題に対処するために、時空間グラフ変換器(STGormer)を導入する。
本研究では,その構造に基づく空間符号化手法を2つ設計し,時間位置をバニラ変圧器に統合して時間的トラフィックパターンをキャプチャする。
論文 参考訳(メタデータ) (2024-08-20T13:18:21Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Wavelet-Inspired Multiscale Graph Convolutional Recurrent Network for
Traffic Forecasting [0.0]
本稿では,マルチスケール解析(MSA)法とディープラーニング(DL)法を組み合わせたグラフ・コンパス・リカレント・ネットワーク(WavGCRN)を提案する。
提案手法は,現実のトラフィックデータセット上での解釈可能性,強力な学習能力,および競合予測性能を提供する。
論文 参考訳(メタデータ) (2024-01-11T16:55:48Z) - GAFlow: Incorporating Gaussian Attention into Optical Flow [62.646389181507764]
我々はガウス的注意(GA)を光学フローモデルに押し込み、表現学習中に局所特性をアクセントする。
本稿では,既存の Transformer ブロックに簡単に接続可能な新しい Gaussian-Constrained Layer (GCL) を提案する。
動作解析のための新しいガウス誘導注意モジュール(GGAM)を提供する。
論文 参考訳(メタデータ) (2023-09-28T07:46:01Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。