論文の概要: OmniGlue: Generalizable Feature Matching with Foundation Model Guidance
- arxiv url: http://arxiv.org/abs/2405.12979v1
- Date: Tue, 21 May 2024 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:30:44.634683
- Title: OmniGlue: Generalizable Feature Matching with Foundation Model Guidance
- Title(参考訳): OmniGlue: ファンデーションモデルガイダンスと一般的な機能マッチング
- Authors: Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo,
- Abstract要約: 本稿では,OmniGlueについて紹介する。OmniGlueは,一般化を基本原理として設計された最初の学習可能な画像マッチングである。
本稿では,空間情報と外観情報をアンタングル化する新しいキーポイント位置誘導型アテンション機構を提案する。
- 参考スコア(独自算出の注目度): 21.692165943308797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows that despite these gains, their potential for real-world applications is restricted by their limited generalization capabilities to novel image domains. In this paper, we introduce OmniGlue, the first learnable image matcher that is designed with generalization as a core principle. OmniGlue leverages broad knowledge from a vision foundation model to guide the feature matching process, boosting generalization to domains not seen at training time. Additionally, we propose a novel keypoint position-guided attention mechanism which disentangles spatial and appearance information, leading to enhanced matching descriptors. We perform comprehensive experiments on a suite of $7$ datasets with varied image domains, including scene-level, object-centric and aerial images. OmniGlue's novel components lead to relative gains on unseen domains of $20.9\%$ with respect to a directly comparable reference model, while also outperforming the recent LightGlue method by $9.5\%$ relatively.Code and model can be found at https://hwjiang1510.github.io/OmniGlue
- Abstract(参考訳): 画像マッチング分野は、新しい学習可能な特徴マッチング技術の継続的な出現を目の当たりにしており、従来のベンチマークでは常に性能が向上している。
しかし,本研究では,これらの進歩にもかかわらず,現実の応用の可能性は,新たな画像領域への限定的な一般化能力によって制限されていることを示す。
本稿では,基本原理として一般化された最初の学習可能な画像マッチングであるOmniGlueを紹介する。
OmniGlueは、ビジョンファウンデーションモデルから幅広い知識を活用して、特徴マッチングプロセスをガイドし、トレーニング時に見えない領域への一般化を促進する。
さらに,空間情報と外観情報をアンタングル化するキーポイント位置誘導型アテンション機構を提案する。
シーンレベル、オブジェクト中心、空中画像など、さまざまな画像領域を持つデータセットのスイートで、包括的な実験を行います。
OmniGlueの新規なコンポーネントは、直接的に同等の参照モデルに対して20.9\%の未確認ドメインに対して相対的なゲインをもたらし、また最近のLightGlueメソッドを9.5\%の相対コードで上回っている。 https://hwjiang1510.github.io/OmniGlueで、コードとモデルが見つかる。
関連論文リスト
- OmniSplat: Taming Feed-Forward 3D Gaussian Splatting for Omnidirectional Images with Editable Capabilities [44.255563018074575]
OmniSplatは、全方位画像から高速なフィードフォワード3DGS生成のための先駆的な研究である。
我々は、視線画像に基づいて訓練された既存のフィードフォワードネットワークよりも高い再構成精度を示す。
論文 参考訳(メタデータ) (2024-12-21T12:33:08Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主成分を凍結し,残った成分のみを適応させることで,偽造関係のパターンを学習しながら,事前学習した知識を保存できる。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer
with Mixture-of-View-Experts [88.23732496104667]
クロスシーンの一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。
我々は、大規模言語モデルから強力なMixture-of-Experts(MoE)のアイデアを"神経化"アーキテクチャにブリッジする。
提案手法は,GNT-MOVE (Mixture-of-View-Experts) とよばれるモデルで,未知のシーンに移動する際の最先端の結果を実験的に示す。
論文 参考訳(メタデータ) (2023-08-22T21:18:54Z) - Similarity Min-Max: Zero-Shot Day-Night Domain Adaptation [52.923298434948606]
低照度条件は人間の視覚経験を妨げるだけでなく、下流の視覚タスクにおけるモデルの性能を低下させる。
この論文は、境界適用性、すなわちゼロショットの昼夜ドメイン適応に関するより複雑なシナリオに挑戦する。
我々は、それらを統一された枠組みで考える類似性 min-max パラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-17T18:50:15Z) - Generalizable Patch-Based Neural Rendering [46.41746536545268]
未知のシーンの新たなビューを合成できるモデル学習のための新しいパラダイムを提案する。
本手法は,シーンから採取したパッチの集合からのみ,新規シーンにおける対象光線の色を直接予測することができる。
本手法は,従来よりも少ないデータでトレーニングされた場合であっても,目立たないシーンの新たなビュー合成において,最先端のビュー合成よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:57:04Z) - DGSS : Domain Generalized Semantic Segmentation using Iterative Style
Mining and Latent Representation Alignment [38.05196030226661]
現在の最先端技術 (SoTA) では、領域ギャップを埋める異なるメカニズムが提案されているが、低い照明条件下では性能が良くない。
本稿では、まず、スタイリングされた画像とソース画像のドメインギャップを最大化する対角的スタイルを識別する2段階のフレームワークを提案する。
そこで我々は,異なるスタイルの同一物体を混合して新たな訓練画像を構築するスタイル混合機構を提案する。
論文 参考訳(メタデータ) (2022-02-26T13:54:57Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。