論文の概要: RGM: A Robust Generalizable Matching Model
- arxiv url: http://arxiv.org/abs/2310.11755v4
- Date: Fri, 15 Mar 2024 00:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 02:13:39.540936
- Title: RGM: A Robust Generalizable Matching Model
- Title(参考訳): RGM:ロバストな一般化可能なマッチングモデル
- Authors: Songyan Zhang, Xinyu Sun, Hao Chen, Bo Li, Chunhua Shen,
- Abstract要約: RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
- 参考スコア(独自算出の注目度): 49.60975442871967
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Finding corresponding pixels within a pair of images is a fundamental computer vision task with various applications. Due to the specific requirements of different tasks like optical flow estimation and local feature matching, previous works are primarily categorized into dense matching and sparse feature matching focusing on specialized architectures along with task-specific datasets, which may somewhat hinder the generalization performance of specialized models. In this paper, we propose a deep model for sparse and dense matching, termed RGM (Robust Generalist Matching). In particular, we elaborately design a cascaded GRU module for refinement by exploring the geometric similarity iteratively at multiple scales following an additional uncertainty estimation module for sparsification. To narrow the gap between synthetic training samples and real-world scenarios, we build a new, large-scale dataset with sparse correspondence ground truth by generating optical flow supervision with greater intervals. As such, we are able to mix up various dense and sparse matching datasets, significantly improving the training diversity. The generalization capacity of our proposed RGM is greatly improved by learning the matching and uncertainty estimation in a two-stage manner on the large, mixed data. Superior performance is achieved for zero-shot matching and downstream geometry estimation across multiple datasets, outperforming the previous methods by a large margin.
- Abstract(参考訳): 一対のイメージ内で対応するピクセルを見つけることは、様々な用途において基本的なコンピュータビジョンタスクである。
光学的フロー推定や局所的特徴マッチングのような様々なタスクの特定の要求のため、以前の研究は主に、特定のアーキテクチャに焦点を当てた密マッチングとスパースな特徴マッチングとタスク固有のデータセットに分類され、特殊モデルの一般化性能をやや損なう可能性がある。
本稿では,RGM (Robust Generalist Matching) と呼ばれる疎密なマッチングモデルを提案する。
特に,複数のスケールで幾何的類似性を反復的に探索し,スペーシフィケーションのための新たな不確実性推定モジュールを付加することにより,改良のためのカスケードGRUモジュールを精巧に設計する。
合成トレーニングサンプルと実世界のシナリオとのギャップを狭めるために,より広い間隔で光フローの監視を生成することにより,疎対応の地上真実を持つ大規模データセットを構築した。
そのため、さまざまな密集したスパースマッチングデータセットを混ぜ合わせることができ、トレーニングの多様性が大幅に向上します。
提案するRGMの一般化能力は、2段階の混合データに基づいてマッチングと不確実性推定を学習することにより大幅に向上する。
複数のデータセットにまたがるゼロショットマッチングと下流幾何推定において、上位性能が達成され、従来の手法よりも大きなマージンで性能が向上した。
関連論文リスト
- LGU-SLAM: Learnable Gaussian Uncertainty Matching with Deformable Correlation Sampling for Deep Visual SLAM [11.715999663401591]
学習可能な2次元ガウス不確実性モデルは、マッチングフレームペアを関連付けるように設計されている。
マルチスケールの変形可能な相関戦略を考案し、各方向のサンプリングを適応的に微調整する。
本手法の有効性と優位性を検証するために,実世界のデータセットと合成データセットの実験を行った。
論文 参考訳(メタデータ) (2024-10-30T17:20:08Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Multi-Facet Clustering Variational Autoencoders [9.150555507030083]
画像などの高次元データは通常、クラスタリング可能な複数の興味深い特徴を特徴付ける。
MFCVAE(Multi-Facet Clustering Variational Autoencoders)を導入する。
MFCVAEは複数のクラスタリングを同時に学習し、完全に教師なしでエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-06-09T17:36:38Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Hierarchical regularization networks for sparsification based learning
on noisy datasets [0.0]
階層は、連続的により微細なスケールで特定される近似空間から従う。
各スケールでのモデル一般化を促進するため,複数次元にわたる新規な射影型ペナルティ演算子も導入する。
その結果、合成データセットと実データセットの両方において、データ削減およびモデリング戦略としてのアプローチの性能が示された。
論文 参考訳(メタデータ) (2020-06-09T18:32:24Z) - Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection [33.15192824888279]
複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-20T08:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。