論文の概要: XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration
- arxiv url: http://arxiv.org/abs/2411.07430v1
- Date: Mon, 11 Nov 2024 23:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:21:29.275820
- Title: XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration
- Title(参考訳): XPoint:マルチスペクトル画像登録のための自己監督型ビジュアル・ステート・スペース・ベースのアーキテクチャ
- Authors: Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk,
- Abstract要約: XPointは、アダプティブトレーニングと、アライメントされたマルチスペクトルデータセットの微調整のための、自己教師付き、モジュール化された画像マッチングフレームワークである。
XPointはモジュラリティと自己スーパービジョンを採用し、ベース検出器のような要素の調整を可能にしている。
XPointは、機能マッチングや画像登録タスクにおいて、最先端のメソッドを一貫して上回るか、マッチする。
- 参考スコア(独自算出の注目度): 2.7036595757881323
- License:
- Abstract: Accurate multispectral image matching presents significant challenges due to non-linear intensity variations across spectral modalities, extreme viewpoint changes, and the scarcity of labeled datasets. Current state-of-the-art methods are typically specialized for a single spectral difference, such as visibleinfrared, and struggle to adapt to other modalities due to their reliance on expensive supervision, such as depth maps or camera poses. To address the need for rapid adaptation across modalities, we introduce XPoint, a self-supervised, modular image-matching framework designed for adaptive training and fine-tuning on aligned multispectral datasets, allowing users to customize key components based on their specific tasks. XPoint employs modularity and self-supervision to allow for the adjustment of elements such as the base detector, which generates pseudoground truth keypoints invariant to viewpoint and spectrum variations. The framework integrates a VMamba encoder, pretrained on segmentation tasks, for robust feature extraction, and includes three joint decoder heads: two are dedicated to interest point and descriptor extraction; and a task-specific homography regression head imposes geometric constraints for superior performance in tasks like image registration. This flexible architecture enables quick adaptation to a wide range of modalities, demonstrated by training on Optical-Thermal data and fine-tuning on settings such as visual-near infrared, visual-infrared, visual-longwave infrared, and visual-synthetic aperture radar. Experimental results show that XPoint consistently outperforms or matches state-ofthe-art methods in feature matching and image registration tasks across five distinct multispectral datasets. Our source code is available at https://github.com/canyagmur/XPoint.
- Abstract(参考訳): 正確なマルチスペクトル画像マッチングは、スペクトルモダリティ、極端な視点変化、ラベル付きデータセットの不足など、非線形強度のばらつきによる重要な課題を呈している。
現在の最先端の手法は通常、可視光のような単一のスペクトル差に特化しており、深度マップやカメラのポーズのような高価な監視に依存しているため、他のモードに適応するのに苦労している。
モダリティにまたがる迅速な適応の必要性に対処するために,適応トレーニングとアライメントされたマルチスペクトルデータセットの微調整用に設計された,自己教師型でモジュール化された画像マッチングフレームワークであるXPointを導入し,ユーザが特定のタスクに基づいてキーコンポーネントをカスタマイズできるようにする。
XPointはモジュラリティと自己スーパービジョンを採用し、ベース検出器のような要素の調整を可能にし、視点やスペクトルの変化に不変な擬似的な真理キーポイントを生成する。
このフレームワークは、セグメンテーションタスクで事前訓練されたVMambaエンコーダを統合し、ロバストな特徴抽出のために、3つのジョイントデコーダヘッドを含む:2つは関心点と記述子抽出に特化しており、タスク固有のホモグラフィ回帰ヘッドは、画像登録のようなタスクにおいて優れたパフォーマンスのために幾何的制約を課している。
この柔軟なアーキテクチャは、光学熱データによるトレーニングや、視覚外赤外線、視覚外赤外線、視覚合成開口レーダなどの設定の微調整によって、幅広いモダリティへの迅速な適応を可能にする。
実験の結果、XPointは5つの異なるマルチスペクトルデータセットで特徴マッチングと画像登録タスクにおいて、最先端の手法を一貫して上回るか、一致していることがわかった。
ソースコードはhttps://github.com/canyagmur/XPoint.comで公開されています。
関連論文リスト
- DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Cross-Modal Object Tracking: Modality-Aware Representations and A
Unified Benchmark [8.932487291107812]
多くの視覚系では、視覚的トラッキングはしばしばRGB画像シーケンスに基づいており、一部のターゲットは低照度環境では無効である。
追従過程におけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識したターゲット表現を学習する新しいアルゴリズムを提案する。
無料の学術的利用のためにデータセットをリリースし、データセットのダウンロードリンクとコードを近くリリースします。
論文 参考訳(メタデータ) (2021-11-08T03:58:55Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。