論文の概要: OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model
- arxiv url: http://arxiv.org/abs/2504.06027v2
- Date: Mon, 15 Sep 2025 04:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.045466
- Title: OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model
- Title(参考訳): OSDM-MReg:マルチモーダル画像登録に基づく1ステップ拡散モデル
- Authors: Xiaochen Wei, Weiwei Guo, Wenxian Yu, Feiming Wei, Dongying Li,
- Abstract要約: マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。
画像間変換によるモダリティギャップを橋渡しする,新しいマルチモーダル画像登録フレームワークOSDM-MRegを提案する。
- 参考スコア(独自算出の注目度): 16.850096473419505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal remote sensing image registration aligns images from different sensors for data fusion and analysis. However, existing methods often struggle to extract modality-invariant features when faced with large nonlinear radiometric differences, such as those between SAR and optical images. To address these challenges, we propose OSDM-MReg, a novel multimodal image registration framework that bridges the modality gap through image-to-image translation. Specifically, we introduce a one-step unaligned target-guided conditional diffusion model (UTGOS-CDM) to translate source and target images into a unified representation domain. Unlike traditional conditional DDPM that require hundreds of iterative steps for inference, our model incorporates a novel inverse translation objective during training to enable direct prediction of the translated image in a single step at test time, significantly accelerating the registration process. After translation, we design a multimodal multiscale registration network (MM-Reg) that extracts and fuses both unimodal and translated multimodal images using the proposed multimodal fusion strategy, enhancing the robustness and precision of alignment across scales and modalities. Extensive experiments on the OSdataset demonstrate that OSDM-MReg achieves superior registration accuracy compared to state-of-the-art methods.
- Abstract(参考訳): マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。
しかし、既存の手法では、SARと光学画像のような大きな非線形放射度差に直面した場合、モダリティ不変の特徴を抽出するのに苦労することが多い。
これらの課題に対処するために,画像間変換によるモダリティギャップを橋渡しする,新しいマルチモーダル画像登録フレームワークOSDM-MRegを提案する。
具体的には、ソースとターゲット画像を統一表現領域に変換するために、一段階の未整合目標誘導条件拡散モデル(UTGOS-CDM)を導入する。
従来の条件付きDDPMでは数百ステップの推論を必要とするが,本モデルではトレーニング中に新たな逆変換目標を組み込んで,単一のステップで翻訳画像の直接予測を実現し,登録プロセスの大幅な高速化を実現している。
翻訳後,提案したマルチモーダル融合戦略を用いて,非モーダル画像と翻訳画像の両方を抽出・融合するマルチモーダル・マルチモーダル登録ネットワーク(MM-Reg)を設計し,スケールとモダリティをまたいだアライメントの堅牢性と精度を向上させる。
OSdatasetの大規模な実験により、OSDM-MRegは最先端の手法よりも優れた登録精度が得られることが示された。
関連論文リスト
- FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。
本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。
本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:27:12Z) - Bi-directional Self-Registration for Misaligned Infrared-Visible Image Fusion [53.60977801655896]
高品質なマルチモーダル画像融合を実現するためには,高精度なマルチモーダル画像ペアの取得が不可欠である。
我々は、新しい自己教師型 textbfBi-directional textbfSelf-textbfRegistration framework (textbfB-SR) を提案する。
論文 参考訳(メタデータ) (2025-05-11T09:36:25Z) - Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM [38.8308841469793]
本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。
我々は,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,複数の画像内の一貫した視覚的要素を利用する。
実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。
論文 参考訳(メタデータ) (2024-12-12T18:59:48Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Cross-Domain Separable Translation Network for Multimodal Image Change Detection [11.25422609271201]
マルチモーダル変化検出(MCD)はリモートセンシングコミュニティにおいて特に重要である。
本稿では,MDDの課題,特に異なるセンサの画像を比較することの難しさに対処することに焦点を当てる。
これらの制限を克服するために、新しい教師なしクロスドメイン分離型翻訳ネットワーク(CSTN)が提案されている。
論文 参考訳(メタデータ) (2024-07-23T03:56:02Z) - Bridging the Gap between Synthetic and Authentic Images for Multimodal
Machine Translation [51.37092275604371]
マルチモーダル機械翻訳(MMT)は、ソース文と関連する画像を同時に翻訳の入力とする。
近年の研究では、画像入力のための強力なテキスト・画像生成モデルが提案されている。
しかし、これらのモデルによって生成された合成画像は、実際の画像と比較して異なる分布を辿ることが多い。
論文 参考訳(メタデータ) (2023-10-20T09:06:30Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models [50.39417112077254]
BBDM(Brownian Bridge Diffusion Model)に基づく画像から画像への変換手法を提案する。
我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。
論文 参考訳(メタデータ) (2022-05-16T13:47:02Z) - Unsupervised Multi-Modal Medical Image Registration via
Discriminator-Free Image-to-Image Translation [4.43142018105102]
本稿では,複数モーダル登録問題をモノモーダル画像に変換するための,新しい翻訳に基づく教師なしデフォルマブル画像登録手法を提案する。
提案手法では,登録ネットワークのトレーニングを容易にするために,識別不要な翻訳ネットワークと,オブジェクトの形状を保たせるためのパッチワイドなコントラスト損失が組み込まれている。
論文 参考訳(メタデータ) (2022-04-28T17:18:21Z) - CoMIR: Contrastive Multimodal Image Representation for Registration [4.543268895439618]
我々は,CoMIR(Contrastive Multimodal Image Representations)と呼ばれる,共有された高密度画像表現を学習するためのコントラスト符号化を提案する。
CoMIRは、十分に類似した画像構造が欠如しているため、既存の登録方法がしばしば失敗するマルチモーダル画像の登録を可能にする。
論文 参考訳(メタデータ) (2020-06-11T10:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。