論文の概要: UFM: Unified Feature Matching Pre-training with Multi-Modal Image Assistants
- arxiv url: http://arxiv.org/abs/2503.21820v1
- Date: Wed, 26 Mar 2025 06:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:32.982514
- Title: UFM: Unified Feature Matching Pre-training with Multi-Modal Image Assistants
- Title(参考訳): UFM: マルチモーダルイメージアシスタントによる事前トレーニングの統一化
- Authors: Yide Di, Yun Liao, Hao Zhou, Kaijun Zhu, Qing Duan, Junhui Liu, Mingyu Lu,
- Abstract要約: 広帯域のモーダル画像にまたがる特徴マッチング問題に対処するために,統一特徴マッチング事前訓練モデル(UFM)を導入する。
多様な特徴マッチング問題に対処できる微調整可能なマルチモーダルイメージアシスタント(MIA)トランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 12.756326600787629
- License:
- Abstract: Image feature matching, a foundational task in computer vision, remains challenging for multimodal image applications, often necessitating intricate training on specific datasets. In this paper, we introduce a Unified Feature Matching pre-trained model (UFM) designed to address feature matching challenges across a wide spectrum of modal images. We present Multimodal Image Assistant (MIA) transformers, finely tunable structures adept at handling diverse feature matching problems. UFM exhibits versatility in addressing both feature matching tasks within the same modal and those across different modals. Additionally, we propose a data augmentation algorithm and a staged pre-training strategy to effectively tackle challenges arising from sparse data in specific modals and imbalanced modal datasets. Experimental results demonstrate that UFM excels in generalization and performance across various feature matching tasks. The code will be released at:https://github.com/LiaoYun0x0/UFM.
- Abstract(参考訳): コンピュータビジョンの基本課題である画像特徴マッチングは、マルチモーダル画像アプリケーションでは依然として困難な課題であり、しばしば特定のデータセットで複雑なトレーニングを必要とする。
本稿では,多様なモーダル画像にまたがる特徴マッチング問題に対処するために,Unified Feature Matching Pre-trained Model (UFM)を提案する。
多様な特徴マッチング問題に対処できる微調整可能なマルチモーダルイメージアシスタント(MIA)トランスフォーマーを提案する。
UFMは、同じモード内の特徴マッチングタスクと異なるモードにわたるタスクの両方に対処する汎用性を示す。
さらに、特定のモーダルや不均衡なモーダルデータセットのスパースデータから生じる課題に効果的に取り組むために、データ強化アルゴリズムと事前学習戦略を提案する。
実験の結果,UFMは様々な特徴マッチングタスクの一般化と性能に優れていた。
コードはhttps://github.com/LiaoYun0x0/UFM.comでリリースされる。
関連論文リスト
- MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。
本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。
我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文 参考訳(メタデータ) (2025-01-13T18:37:36Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - Task-Customized Mixture of Adapters for General Image Fusion [51.8742437521891]
一般画像融合は、マルチソース画像から重要な情報を統合することを目的としている。
本稿では, 汎用画像融合用アダプタ(TC-MoA)を新たに提案し, 統一モデルにおける様々な融合タスクを適応的に促進する。
論文 参考訳(メタデータ) (2024-03-19T07:02:08Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - MultiMAE: Multi-modal Multi-task Masked Autoencoders [2.6763498831034043]
マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。
我々は、この事前学習戦略が、ダウンストリームタスクへの転送結果を改善した、柔軟で、シンプルで、効率的なフレームワークに繋がることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。