論文の概要: OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model
- arxiv url: http://arxiv.org/abs/2504.06027v1
- Date: Tue, 08 Apr 2025 13:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:47.488239
- Title: OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model
- Title(参考訳): OSDM-MReg:マルチモーダル画像登録に基づく1ステップ拡散モデル
- Authors: Xiaochen Wei, Weiwei Guo, Wenxian Yu, Feiming Wei, Dongying Li,
- Abstract要約: マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。
我々は,新しいマルチモーダル画像登録フレームワークであるOSDM-MRegを提案する。
実験は、様々なマルチモーダル登録タスクにおいて、精度と効率が優れていることを示す。
- 参考スコア(独自算出の注目度): 8.619958921346184
- License:
- Abstract: Multimodal remote sensing image registration aligns images from different sensors for data fusion and analysis. However, current methods often fail to extract modality-invariant features when aligning image pairs with large nonlinear radiometric differences. To address this issues, we propose OSDM-MReg, a novel multimodal image registration framework based image-to-image translation to eliminate the gap of multimodal images. Firstly, we propose a novel one-step unaligned target-guided conditional denoising diffusion probabilistic models(UTGOS-CDDPM)to translate multimodal images into a unified domain. In the inference stage, traditional conditional DDPM generate translated source image by a large number of iterations, which severely slows down the image registration task. To address this issues, we use the unaligned traget image as a condition to promote the generation of low-frequency features of the translated source image. Furthermore, during the training stage, we add the inverse process of directly predicting the translated image to ensure that the translated source image can be generated in one step during the testing stage. Additionally, to supervised the detail features of translated source image, we propose a new perceptual loss that focuses on the high-frequency feature differences between the translated and ground-truth images. Finally, a multimodal multiscale image registration network (MM-Reg) fuse the multimodal feature of the unimodal images and multimodal images by proposed multimodal feature fusion strategy. Experiments demonstrate superior accuracy and efficiency across various multimodal registration tasks, particularly for SAR-optical image pairs.
- Abstract(参考訳): マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。
しかし、現在の方法では、画像対と大きな非線形ラジオメトリック差を合わせる際に、モダリティ不変の特徴を抽出できないことが多い。
この問題に対処するため、我々はマルチモーダル画像のギャップをなくすために、新しいマルチモーダル画像登録フレームワークであるOSDM-MRegを提案する。
まず,一段階の目標誘導条件付き拡散確率モデル(UTGOS-CDDPM)を提案する。
推論段階では、従来の条件DDPMは、多数の繰り返しで翻訳されたソース画像を生成し、画像登録タスクを著しく遅くする。
この問題に対処するために、我々は、非整合トラゲ画像を用いて、翻訳されたソース画像の低周波特徴の生成を促進する。
さらに、トレーニング段階では、変換された画像を直接予測する逆プロセスを追加し、テスト段階では、変換されたソース画像が1ステップで生成されることを保証する。
さらに, 翻訳画像の詳細な特徴を教師する目的で, 翻訳画像と接地真実画像の高周波特徴差に着目した新たな知覚的損失を提案する。
最後に、マルチモーダル画像とマルチモーダル画像のマルチモーダル特徴をマルチモーダル特徴融合戦略により融合するマルチモーダルマルチスケール画像登録ネットワーク(MM-Reg)を提案する。
様々なマルチモーダル登録タスク、特にSAR-光画像ペアにおいて、実験により精度と効率が向上した。
関連論文リスト
- MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM [38.8308841469793]
本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。
我々は,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,複数の画像内の一貫した視覚的要素を利用する。
実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。
論文 参考訳(メタデータ) (2024-12-12T18:59:48Z) - A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model [101.65105730838346]
離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。
我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。
実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
論文 参考訳(メタデータ) (2024-08-20T17:48:20Z) - Cross-Domain Separable Translation Network for Multimodal Image Change Detection [11.25422609271201]
マルチモーダル変化検出(MCD)はリモートセンシングコミュニティにおいて特に重要である。
本稿では,MDDの課題,特に異なるセンサの画像を比較することの難しさに対処することに焦点を当てる。
これらの制限を克服するために、新しい教師なしクロスドメイン分離型翻訳ネットワーク(CSTN)が提案されている。
論文 参考訳(メタデータ) (2024-07-23T03:56:02Z) - Bridging the Gap between Synthetic and Authentic Images for Multimodal
Machine Translation [51.37092275604371]
マルチモーダル機械翻訳(MMT)は、ソース文と関連する画像を同時に翻訳の入力とする。
近年の研究では、画像入力のための強力なテキスト・画像生成モデルが提案されている。
しかし、これらのモデルによって生成された合成画像は、実際の画像と比較して異なる分布を辿ることが多い。
論文 参考訳(メタデータ) (2023-10-20T09:06:30Z) - BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models [50.39417112077254]
BBDM(Brownian Bridge Diffusion Model)に基づく画像から画像への変換手法を提案する。
我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。
論文 参考訳(メタデータ) (2022-05-16T13:47:02Z) - Unsupervised Multi-Modal Medical Image Registration via
Discriminator-Free Image-to-Image Translation [4.43142018105102]
本稿では,複数モーダル登録問題をモノモーダル画像に変換するための,新しい翻訳に基づく教師なしデフォルマブル画像登録手法を提案する。
提案手法では,登録ネットワークのトレーニングを容易にするために,識別不要な翻訳ネットワークと,オブジェクトの形状を保たせるためのパッチワイドなコントラスト損失が組み込まれている。
論文 参考訳(メタデータ) (2022-04-28T17:18:21Z) - CoMIR: Contrastive Multimodal Image Representation for Registration [4.543268895439618]
我々は,CoMIR(Contrastive Multimodal Image Representations)と呼ばれる,共有された高密度画像表現を学習するためのコントラスト符号化を提案する。
CoMIRは、十分に類似した画像構造が欠如しているため、既存の登録方法がしばしば失敗するマルチモーダル画像の登録を可能にする。
論文 参考訳(メタデータ) (2020-06-11T10:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。