論文の概要: DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis
- arxiv url: http://arxiv.org/abs/2602.23022v1
- Date: Thu, 26 Feb 2026 14:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.712376
- Title: DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis
- Title(参考訳): DMAligner:拡散モデルに基づくビュー合成による画像アライメントの強化
- Authors: Xinglong Luo, Ao Luo, Zhengning Wang, Yueqi Yang, Chaoyu Feng, Lei Lei, Bing Zeng, Shuaicheng Liu,
- Abstract要約: DMAlignerは、アライメント指向ビュー合成による画像アライメントのための拡散ベースのフレームワークである。
条件付き画像生成学習のためのダイナミクス対応拡散訓練手法を提案する。
我々は,Blenderを用いたダイナミックシーン画像アライメント(DSIA)データセットを開発した。
- 参考スコア(独自算出の注目度): 63.59932602411222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image alignment is a fundamental task in computer vision with broad applications. Existing methods predominantly employ optical flow-based image warping. However, this technique is susceptible to common challenges such as occlusions and illumination variations, leading to degraded alignment visual quality and compromised accuracy in downstream tasks. In this paper, we present DMAligner, a diffusion-based framework for image alignment through alignment-oriented view synthesis. DMAligner is crafted to tackle the challenges in image alignment from a new perspective, employing a generation-based solution that showcases strong capabilities and avoids the problems associated with flow-based image warping. Specifically, we propose a Dynamics-aware Diffusion Training approach for learning conditional image generation, synthesizing a novel view for image alignment. This incorporates a Dynamics-aware Mask Producing (DMP) module to adaptively distinguish dynamic foreground regions from static backgrounds, enabling the diffusion model to more effectively handle challenges that classical methods struggle to solve. Furthermore, we develop the Dynamic Scene Image Alignment (DSIA) dataset using Blender, which includes 1,033 indoor and outdoor scenes with over 30K image pairs tailored for image alignment. Extensive experimental results demonstrate the superiority of the proposed approach on DSIA benchmarks, as well as on a series of widely-used video datasets for qualitative comparisons. Our code is available at https://github.com/boomluo02/DMAligner.
- Abstract(参考訳): 画像アライメントはコンピュータビジョンにおける幅広い応用の基本課題である。
既存の方法は、主に光フローベースの画像ワープを用いる。
しかし、この手法は、閉塞や照明のバリエーションといった一般的な課題の影響を受けやすく、視覚的品質の低下と下流タスクの精度の低下につながっている。
本稿では、アライメント指向ビュー合成による画像アライメントのための拡散ベースのフレームワークであるDMAlignerを提案する。
DMAlignerは新しい視点からイメージアライメントの課題に取り組み、強力な機能を示す世代ベースのソリューションを採用し、フローベースのイメージワープに関連する問題を回避している。
具体的には、条件付き画像生成を学習するためのDynamics-Aware Diffusion Trainingアプローチを提案し、画像アライメントのための新しいビューを合成する。
これはDynamics-Aware Mask Producing (DMP)モジュールを組み込んだもので、動的前景領域と静的背景を適応的に区別する。
さらに,Blenderを用いたダイナミックシーン画像アライメント(DSIA)データセットを開発した。
大規模な実験結果から,DSIAベンチマークや,定性比較のために広く使用されている一連のビデオデータセットにおいて,提案手法の優位性が示された。
私たちのコードはhttps://github.com/boomluo02/DMAligner.comから入手可能です。
関連論文リスト
- Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model [92.61216319417208]
画像の劣化に対する新しい拡散モデル(DM)に基づくフレームワークを提案する。
我々の研究は、ぼやけた画像のテクスチャを回復するのに役立つ事前知識を生成するために、DMを実行する。
生成したテクスチャをフル活用するために,テクスチャ転送変換層(TTformer)を提案する。
論文 参考訳(メタデータ) (2025-07-18T01:50:31Z) - CDG-MAE: Learning Correspondences from Diffusion Generated Views [19.24402848656637]
CDG-MAEは、静的画像から生成される多様な合成ビューを利用する、新しいMAEベースの自己教師方式である。
これらの生成されたビューは、ポーズとパースペクティブに大きな変化を示し、リッチなトレーニング信号を提供する。
論文 参考訳(メタデータ) (2025-06-22T20:40:11Z) - STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文 参考訳(メタデータ) (2025-03-15T17:36:24Z) - DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。