論文の概要: SupScene: Learning Overlap-Aware Global Descriptor for Unconstrained SfM
- arxiv url: http://arxiv.org/abs/2601.11930v1
- Date: Sat, 17 Jan 2026 06:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.382632
- Title: SupScene: Learning Overlap-Aware Global Descriptor for Unconstrained SfM
- Title(参考訳): SupScene: 制約のないSfMのためのオーバーラップ対応グローバルディスクリプタ
- Authors: Xulei Shi, Maoyu Wang, Yuning Peng, Guanbo Wang, Xin Wang, Qi Chen, Pengjie Tao,
- Abstract要約: SupSceneは、Structure-from-Motion(SfM)に類似した幾何学的性質の重なり合う画像対を見つけるのに適した、グローバルな記述子を学習する新しいソリューションである。
提案手法は,NetVLADを著しく上回りながら,トレーニング可能なパラメータを無数に導入し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 10.006619357851843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retrieval is a critical step for alleviating the quadratic complexity of image matching in unconstrained Structure-from-Motion (SfM). However, in this context, image retrieval typically focuses more on the image pairs of geometric matchability than on those of semantic similarity, a nuance that most existing deep learning-based methods guided by batched binaries (overlapping vs. non-overlapping pairs) fail to capture. In this paper, we introduce SupScene, a novel solution that learns global descriptors tailored for finding overlapping image pairs of similar geometric nature for SfM. First, to better underline co-visible regions, we employ a subgraph-based training strategy that moves beyond equally important isolated pairs, leveraging ground-truth geometric overlapping relationships with various weights to provide fine-grained supervision via a soft supervised contrastive loss. Second, we introduce DiVLAD, a DINO-inspired VLAD aggregator that leverages the inherent multi-head attention maps from the last block of ViT. And then, a learnable gating mechanism is designed to adaptively utilize these semantically salient cues with visual features, enabling a more discriminative global descriptor. Extensive experiments on the GL3D dataset demonstrate that our method achieves state-of-the-art performance, significantly outperforming NetVLAD while introducing a negligible number of additional trainable parameters. Furthermore, we show that the proposed training strategy brings consistent gains across different aggregation techniques. Code and models are available at https://anonymous.4open.science/r/SupScene-5B73.
- Abstract(参考訳): 画像検索は、制約のないStructure-from-Motion(SfM)における画像マッチングの二次的複雑さを軽減するための重要なステップである。
しかし、この文脈では、画像検索は通常、意味的類似性よりも幾何学的整合性のイメージ対に重点を置いている。
本稿では,SfMに類似した幾何学的性質の重なり合う画像対を見つけるために,グローバルな記述子を学習する新しいソリューションであるSupSceneを紹介する。
まず,重みの重みとの重みの重なり合いを生かし,ソフトな教師付きコントラッシブ・ロスによるきめ細かな監督を実現するために,同種の重要な孤立したペアを超越したサブグラフベースのトレーニング戦略を採用する。
第2に、DINOにインスパイアされたVLADアグリゲータであるDiVLADを導入する。
そして、学習可能なゲーティング機構は、これらの意味論的に健全なキューを視覚的特徴で適応的に利用し、より差別的なグローバルな記述子を可能にするように設計されている。
GL3Dデータセットの大規模な実験により,本手法が最先端の性能を達成し,NetVLADを著しく上回り,さらに多くのトレーニング可能なパラメータを付加した。
さらに,提案したトレーニング戦略は,異なるアグリゲーション技術間で一貫した利得をもたらすことを示す。
コードとモデルはhttps://anonymous.4open.science/r/SupScene-5B73で公開されている。
関連論文リスト
- Sparse and Dense Retrievers Learn Better Together: Joint Sparse-Dense Optimization for Text-Image Retrieval [11.20814404187967]
本稿では,自己知識蒸留による濃密表現と疎表現の双方向学習を実現するフレームワークを提案する。
この双方向学習は、両表現の共有教師信号として機能する、濃密で疎密な類似度の重み付けされた合計である類似度スコアを用いて達成される。
MSCOCOとFlickr30kの実験は、スパースレトリバーが既存のスパースベースラインを上回るだけでなく、高密度のリトリーバーよりも高いパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-08-22T13:25:58Z) - Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models [55.99654128127689]
Visual Foundation Models (VFM) は、弱い教師付きピクセル対ポイントのコントラスト蒸留のためのセマンティックラベルを生成するために使用される。
我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。
我々の手法は、下流タスクにおける既存の画像からLiDARへのコントラスト蒸留法を一貫して超越している。
論文 参考訳(メタデータ) (2024-05-23T07:48:19Z) - Superpixel Semantics Representation and Pre-training for Vision-Language Task [11.029236633301222]
画像空間における粗い粒度のセマンティックな相互作用は無視するべきではない。
本稿では,スーパーピクセルを包括的で堅牢なビジュアルプリミティブとして提案する。
画像全体を細粒度で粗い視覚階層として解析することができる。
論文 参考訳(メタデータ) (2023-10-20T12:26:04Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - A Dual-branch Self-supervised Representation Learning Framework for
Tumour Segmentation in Whole Slide Images [12.961686610789416]
自己教師付き学習(SSL)は、スライドイメージ全体のアノテーションオーバーヘッドを低減する代替ソリューションとして登場した。
これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限するマルチレゾリューションWSIを扱うために設計されていない。
マルチ解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。
論文 参考訳(メタデータ) (2023-03-20T10:57:28Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。