論文の概要: CRFT: Consistent-Recurrent Feature Flow Transformer for Cross-Modal Image Registration
- arxiv url: http://arxiv.org/abs/2604.05689v1
- Date: Tue, 07 Apr 2026 10:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.771518
- Title: CRFT: Consistent-Recurrent Feature Flow Transformer for Cross-Modal Image Registration
- Title(参考訳): CRFT: クロスモーダル画像登録のためのコンシステント・リカレントな特徴フロー変換器
- Authors: Xuecong Liu, Mengzhu Ding, Zixuan Sun, Zhang Li, Xichao Teng,
- Abstract要約: Consistent-Recurrent Feature Flow Transformer (CRFT) は、堅牢なクロスモーダル画像登録のための特徴フロー学習に基づく統一された粗大なフレームワークである。
CRFTは、特徴アライメントとフロー推定を共同で行うトランスフォーマーベースのアーキテクチャにおいて、モダリティに依存しない特徴フロー表現を学習する。
- 参考スコア(独自算出の注目度): 6.361810913107242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Consistent-Recurrent Feature Flow Transformer (CRFT), a unified coarse-to-fine framework based on feature flow learning for robust cross-modal image registration. CRFT learns a modality-independent feature flow representation within a transformer-based architecture that jointly performs feature alignment and flow estimation. The coarse stage establishes global correspondences through multi-scale feature correlation, while the fine stage refines local details via hierarchical feature fusion and adaptive spatial reasoning. To enhance geometric adaptability, an iterative discrepancy-guided attention mechanism with a Spatial Geometric Transform (SGT) recurrently refines the flow field, progressively capturing subtle spatial inconsistencies and enforcing feature-level consistency. This design enables accurate alignment under large affine and scale variations while maintaining structural coherence across modalities. Extensive experiments on diverse cross-modal datasets demonstrate that CRFT consistently outperforms state-of-the-art registration methods in both accuracy and robustness. Beyond registration, CRFT provides a generalizable paradigm for multimodal spatial correspondence, offering broad applicability to remote sensing, autonomous navigation, and medical imaging. Code and datasets are publicly available at https://github.com/NEU-Liuxuecong/CRFT.
- Abstract(参考訳): 本稿では,高能率なクロスモーダル画像登録のための特徴フロー学習に基づく,統一された粗大きめのフレームワークであるConsistent-Recurrent Feature Flow Transformer (CRFT)を提案する。
CRFTは、特徴アライメントとフロー推定を共同で行うトランスフォーマーベースのアーキテクチャ内で、モダリティに依存しない特徴フロー表現を学習する。
粗い段階はマルチスケールの特徴相関によって大域的対応を確立する一方、微細段階は階層的特徴融合と適応的空間推論によって局所的詳細を洗練する。
幾何適応性を高めるため、空間幾何学変換(SGT)を用いた反復的離散性誘導型アテンション機構は、流れ場をリカレントに洗練し、微妙な空間的不整合を段階的に捉え、特徴レベルの一貫性を強制する。
この設計により、大きなアフィンとスケールの変動の下で正確なアライメントが可能であり、モジュール間の構造的コヒーレンスを維持することができる。
多様なクロスモーダルデータセットに対する大規模な実験により、CRFTは精度とロバスト性の両方において、最先端の登録方法よりも一貫して優れていることが示された。
登録以外にも、CRFTはマルチモーダル空間通信のための一般化可能なパラダイムを提供し、リモートセンシング、自律ナビゲーション、医療画像への幅広い適用性を提供する。
コードとデータセットはhttps://github.com/NEU-Liuxuecong/CRFTで公開されている。
関連論文リスト
- StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval [75.28673512571449]
Continual Text-to-Video Retrievalの重要な課題はフィーチャードリフトだ。
我々はCTVRのための構造化クロスモーダルアライメント手法であるStructAlignを提案する。
我々の手法は、常に最先端の連続検索手法より優れています。
論文 参考訳(メタデータ) (2026-01-28T13:34:44Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - Gated Recursive Fusion: A Stateful Approach to Scalable Multimodal Transformers [0.0]
Gated Recurrent Fusion(GRF)は、線形にスケーラブルで再帰的なパイプライン内で、モーダル間注目のパワーをキャプチャする新しいアーキテクチャである。
我々の研究は、強力でスケーラブルなマルチモーダル表現学習のための堅牢で効率的なパラダイムを提示している。
論文 参考訳(メタデータ) (2025-07-01T09:33:38Z) - Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。
その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。
トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文 参考訳(メタデータ) (2025-04-23T06:44:46Z) - CDXLSTM: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory [7.926250735066206]
本稿では,強力なXLSTM機能拡張層であるコアコンポーネントを備えたCDXLSTMを提案する。
具体的には、意味的精度の深い機能のためにカスタマイズされたクロステンポラルグローバルパーセプトロンを組み込んだ、スケール特異的な特徴エンハンサー層を導入する。
また,グローバルな変化表現と空間応答を段階的に相互作用するクロススケール・インタラクティブ・フュージョンモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:22:14Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。