論文の概要: TopicFM: Robust and Interpretable Feature Matching with Topic-assisted
- arxiv url: http://arxiv.org/abs/2207.00328v1
- Date: Fri, 1 Jul 2022 10:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 20:36:02.947931
- Title: TopicFM: Robust and Interpretable Feature Matching with Topic-assisted
- Title(参考訳): TopicFM:topic-assistedとマッチするロバストで解釈可能な機能
- Authors: Khang Truong Giang, Soohwan Song, Sungho Jo
- Abstract要約: 本稿では,効率,堅牢,解釈可能な画像マッチングアーキテクチャを提案する。
TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間で同じ空間構造をトピックに大まかに整理する。
提案手法は,計算量を削減するために,共可視領域でのみマッチングを行うことができる。
- 参考スコア(独自算出の注目度): 8.314830611853168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding correspondences across images is an important task in many visual
applications. Recent state-of-the-art methods focus on end-to-end
learning-based architectures designed in a coarse-to-fine manner. They use a
very deep CNN or multi-block Transformer to learn robust representation, which
requires high computation power. Moreover, these methods learn features without
reasoning about objects, shapes inside images, thus lacks of interpretability.
In this paper, we propose an architecture for image matching which is
efficient, robust, and interpretable. More specifically, we introduce a novel
feature matching module called TopicFM which can roughly organize same spatial
structure across images into a topic and then augment the features inside each
topic for accurate matching. To infer topics, we first learn global embedding
of topics and then use a latent-variable model to detect-then-assign the image
structures into topics. Our method can only perform matching in co-visibility
regions to reduce computations. Extensive experiments in both outdoor and
indoor datasets show that our method outperforms the recent methods in terms of
matching performance and computational efficiency. The code is available at
https://github.com/TruongKhang/TopicFM.
- Abstract(参考訳): 画像間の対応を見つけることは、多くの視覚的応用において重要な課題である。
最近の最先端の手法は、粗い方法で設計されたエンドツーエンドの学習ベースアーキテクチャに焦点を当てている。
彼らは非常に深いCNNまたはマルチブロックトランスフォーマーを使用して、高い計算能力を必要とする堅牢な表現を学習する。
さらに,これらの手法は物体や画像の形状を考慮せずに特徴を学習し,解釈性に欠ける。
本稿では,効率的な,堅牢で,解釈可能な画像マッチングアーキテクチャを提案する。
具体的には、TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間の空間構造を大まかに整理し、各トピック内の機能を拡張して正確なマッチングを行う。
トピックを推論するために、まずトピックのグローバルな埋め込みを学び、次に潜在変数モデルを用いて画像構造をトピックに割り当てる。
本手法は, 計算量を減らすために, 同時視領域でのみマッチングを行うことができる。
屋外および屋内のデータセットにおける広範囲な実験により,本手法が近年の手法よりも性能と計算効率のマッチングにおいて優れていることが示された。
コードはhttps://github.com/TruongKhang/TopicFMで公開されている。
関連論文リスト
- Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - TopicFM+: Boosting Accuracy and Efficiency of Topic-Assisted Feature
Matching [8.314830611853168]
本研究は,異なるシーンや限られたテクスチャを持つシーンなど,難易度の高いシナリオにおける画像マッチングの課題に対処する。
従来の研究では、トランスフォーマーを用いてグローバルシーンコンテキストを符号化することで、この問題に対処しようと試みてきた。
本稿では、トピックモデリング戦略を利用して画像中の高レベルなコンテキストをキャプチャする新しい画像マッチング手法を提案する。
論文 参考訳(メタデータ) (2023-07-02T06:14:07Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。