論文の概要: TopicFM+: Boosting Accuracy and Efficiency of Topic-Assisted Feature
Matching
- arxiv url: http://arxiv.org/abs/2307.00485v1
- Date: Sun, 2 Jul 2023 06:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:44:22.720618
- Title: TopicFM+: Boosting Accuracy and Efficiency of Topic-Assisted Feature
Matching
- Title(参考訳): TopicFM+: Topic-Assisted Feature Matching の精度向上と効率向上
- Authors: Khang Truong Giang, Soohwan Song, Sungho Jo
- Abstract要約: 本研究は,異なるシーンや限られたテクスチャを持つシーンなど,難易度の高いシナリオにおける画像マッチングの課題に対処する。
従来の研究では、トランスフォーマーを用いてグローバルシーンコンテキストを符号化することで、この問題に対処しようと試みてきた。
本稿では、トピックモデリング戦略を利用して画像中の高レベルなコンテキストをキャプチャする新しい画像マッチング手法を提案する。
- 参考スコア(独自算出の注目度): 8.314830611853168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study tackles the challenge of image matching in difficult scenarios,
such as scenes with significant variations or limited texture, with a strong
emphasis on computational efficiency. Previous studies have attempted to
address this challenge by encoding global scene contexts using Transformers.
However, these approaches suffer from high computational costs and may not
capture sufficient high-level contextual information, such as structural shapes
or semantic instances. Consequently, the encoded features may lack
discriminative power in challenging scenes. To overcome these limitations, we
propose a novel image-matching method that leverages a topic-modeling strategy
to capture high-level contexts in images. Our method represents each image as a
multinomial distribution over topics, where each topic represents a latent
semantic instance. By incorporating these topics, we can effectively capture
comprehensive context information and obtain discriminative and high-quality
features. Additionally, our method effectively matches features within
corresponding semantic regions by estimating the covisible topics. To enhance
the efficiency of feature matching, we have designed a network with a
pooling-and-merging attention module. This module reduces computation by
employing attention only on fixed-sized topics and small-sized features.
Through extensive experiments, we have demonstrated the superiority of our
method in challenging scenarios. Specifically, our method significantly reduces
computational costs while maintaining higher image-matching accuracy compared
to state-of-the-art methods. The code will be updated soon at
https://github.com/TruongKhang/TopicFM
- Abstract(参考訳): 本研究は,大きなバリエーションや限られたテクスチャを持つシーンなど,困難なシナリオにおける画像マッチングの課題に,計算効率に重点を置いて取り組む。
従来の研究では、トランスフォーマーを用いてグローバルシーンコンテキストを符号化することで、この問題に対処しようと試みてきた。
しかしながら、これらのアプローチは高い計算コストに悩まされており、構造形状やセマンティックインスタンスのような十分な高レベルのコンテキスト情報をキャプチャできない可能性がある。
その結果、符号化された特徴は、挑戦的な場面で差別力に欠ける可能性がある。
これらの制約を克服するために,トピックモデリング戦略を利用して画像中の高レベルのコンテキストをキャプチャする新しい画像マッチング手法を提案する。
提案手法は,各トピックが潜在意味インスタンスを表すトピック上の多項分布として,各イメージを表す。
これらのトピックを組み込むことで、包括的コンテキスト情報を効果的に捉え、識別的かつ高品質な特徴を得ることができる。
さらに,本手法は,可視的トピックを推定することにより,対応する意味領域内の特徴を効果的にマッチングする。
特徴マッチングの効率を高めるため,我々はプール・アンド・マージアテンションモジュールを備えたネットワークを設計した。
このモジュールは、固定サイズのトピックと小さな機能のみに注意を払って計算を減らします。
大規模な実験を通じて,挑戦シナリオにおける手法の優位性を実証した。
具体的には,最先端手法と比較して画像マッチング精度を高く保ちながら,計算コストを大幅に削減する。
コードは近々https://github.com/TruongKhang/TopicFMで更新される。
関連論文リスト
- Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - NubbleDrop: A Simple Way to Improve Matching Strategy for Prompted One-Shot Segmentation [2.2559617939136505]
マッチング戦略の有効性とロバスト性を高めるための,単純で訓練のない手法を提案する。
中心となる概念は、マッチングプロセス中にランダムに特徴チャネル(0に設定する)をドロップすることである。
この手法は、病理的なヌブルの破棄を模倣し、他の類似性コンピューティングのシナリオにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-05-19T08:00:38Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - TopicFM: Robust and Interpretable Feature Matching with Topic-assisted [8.314830611853168]
本稿では,効率,堅牢,解釈可能な画像マッチングアーキテクチャを提案する。
TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間で同じ空間構造をトピックに大まかに整理する。
提案手法は,計算量を削減するために,共可視領域でのみマッチングを行うことができる。
論文 参考訳(メタデータ) (2022-07-01T10:39:14Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z) - Collaboration among Image and Object Level Features for Image
Colourisation [25.60139324272782]
画像のカラー化は不適切な問題であり、入力データムに存在するコンテキストとオブジェクトインスタンスに依存する複数の正しいソリューションがある。
従来のアプローチは、強力なユーザーインタラクションを必要とするか、画像レベル(コンテキスト)機能を学ぶために畳み込みニューラルネットワーク(CNN)の能力を利用して、この問題を攻撃しました。
コンボリューションによって得られる画像レベルの特徴とカプセルによってキャプチャされるオブジェクトレベルの特徴を分離する,UCapsNetという単一のネットワークを提案する。
そして,異なる層間の接続をスキップすることで,これらの分離要因間の協調を強制し,高品質で再現可能な画像彩色を実現する。
論文 参考訳(メタデータ) (2021-01-19T11:48:12Z) - Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。
提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。
4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文 参考訳(メタデータ) (2020-11-04T23:07:07Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。