論文の概要: SceneGlue: Scene-Aware Transformer for Feature Matching without Scene-Level Annotation
- arxiv url: http://arxiv.org/abs/2604.13941v1
- Date: Wed, 15 Apr 2026 14:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.589303
- Title: SceneGlue: Scene-Aware Transformer for Feature Matching without Scene-Level Annotation
- Title(参考訳): SceneGlue:Scene-Levelアノテーションのない特徴マッチングのためのScene-Aware Transformer
- Authors: Songlin Du, Xiaoyong Lu, Yaping Yan, Guobao Xiao, Xiaobo Lu, Takeshi Ikenaga,
- Abstract要約: 局所特徴マッチングは、クロスビュー画像間の対応を理解する上で重要な役割を果たす。
伝統的なメソッドは、特徴記述子の固有のローカルな性質によって制約される。
SceneGlueは、これらの制限を克服するために設計された、シーン対応の機能マッチングフレームワークである。
- 参考スコア(独自算出の注目度): 54.91562048137692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local feature matching plays a critical role in understanding the correspondence between cross-view images. However, traditional methods are constrained by the inherent local nature of feature descriptors, limiting their ability to capture non-local scene information that is essential for accurate cross-view correspondence. In this paper, we introduce SceneGlue, a scene-aware feature matching framework designed to overcome these limitations. SceneGlue leverages a hybridizable matching paradigm that integrates implicit parallel attention and explicit cross-view visibility estimation. The parallel attention mechanism simultaneously exchanges information among local descriptors within and across images, enhancing the scene's global context. To further enrich the scene awareness, we propose the Visibility Transformer, which explicitly categorizes features into visible and invisible regions, providing an understanding of cross-view scene visibility. By combining explicit and implicit scene-level awareness, SceneGlue effectively compensates for the local descriptor constraints. Notably, SceneGlue is trained using only local feature matches, without requiring scene-level groundtruth annotations. This scene-aware approach not only improves accuracy and robustness but also enhances interpretability compared to traditional methods. Extensive experiments on applications such as homography estimation, pose estimation, image matching, and visual localization validate SceneGlue's superior performance. The source code is available at https://github.com/songlin-du/SceneGlue.
- Abstract(参考訳): 局所特徴マッチングは、クロスビュー画像間の対応を理解する上で重要な役割を果たす。
しかし、従来の手法は特徴記述子の固有の局所的性質に制約されており、正確なクロスビュー対応に不可欠な非局所的なシーン情報をキャプチャする能力を制限している。
本稿では,これらの制約を克服するためのシーン認識機能マッチングフレームワークであるSceneGlueを紹介する。
SceneGlueは、暗黙の並列注意と明示的なクロスビュー可視性推定を統合した、ハイブリダイズ可能なマッチングパラダイムを活用している。
並列アテンション機構は、画像内のローカルディスクリプタ間で情報を同時に交換し、シーンのグローバルなコンテキストを高める。
シーン認識をさらに強化するために,視覚的・見えない領域に特徴を明示的に分類する視覚変換器を提案する。
明示的で暗黙的なシーンレベルの認識を組み合わせることで、SceneGlueはローカルな記述子制約を効果的に補償する。
特にSceneGlueは、シーンレベルの基底アノテーションを必要とせずに、ローカル機能マッチのみを使用してトレーニングされている。
このシーン認識アプローチは、精度と堅牢性を向上するだけでなく、従来の手法と比較して解釈可能性を高める。
ホモグラフィー推定、ポーズ推定、画像マッチング、視覚的ローカライゼーションなどの応用に関する広範な実験は、SceneGlueの優れた性能を検証する。
ソースコードはhttps://github.com/songlin-du/SceneGlue.comで入手できる。
関連論文リスト
- Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-02T12:14:29Z) - Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。
シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。
ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文 参考訳(メタデータ) (2024-10-25T06:59:11Z) - Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - Multi-level Cross-modal Feature Alignment via Contrastive Learning
towards Zero-shot Classification of Remote Sensing Image Scenes [7.17717863134783]
ゼロショット画像シーンの分類に対処するクロスモーダル特徴アライメント手法が提案されている。
リモートセンシング画像シーンのゼロショット分類のためのコントラスト学習によるマルチレベルクロスモーダル特徴アライメント手法を提案する。
提案手法は,ゼロショットリモートセンシング画像シーン分類のための技術手法の状況より優れている。
論文 参考訳(メタデータ) (2023-05-31T10:00:45Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark [46.166955777187816]
本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
論文 参考訳(メタデータ) (2022-05-31T12:59:01Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。