論文の概要: Predicting Visual Overlap of Images Through Interpretable Non-Metric Box
Embeddings
- arxiv url: http://arxiv.org/abs/2008.05785v1
- Date: Thu, 13 Aug 2020 10:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:47:53.688548
- Title: Predicting Visual Overlap of Images Through Interpretable Non-Metric Box
Embeddings
- Title(参考訳): 解釈可能な非メトリックボックス埋め込みによる画像の視覚的オーバーラップ予測
- Authors: Anita Rau, Guillermo Garcia-Hernando, Danail Stoyanov, Gabriel J.
Brostow, Daniyar Turmukhambetov
- Abstract要約: 本稿では,大規模空間における探索を本質的に検索に削減する,解釈可能な画像埋め込みを提案する。
この埋め込みによって、よりシンプルで、高速で、人間によって解釈可能な画像マッチング結果が得られることを示す。
- 参考スコア(独自算出の注目度): 29.412748394892105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To what extent are two images picturing the same 3D surfaces? Even when this
is a known scene, the answer typically requires an expensive search across
scale space, with matching and geometric verification of large sets of local
features. This expense is further multiplied when a query image is evaluated
against a gallery, e.g. in visual relocalization. While we don't obviate the
need for geometric verification, we propose an interpretable image-embedding
that cuts the search in scale space to essentially a lookup.
Our approach measures the asymmetric relation between two images. The model
then learns a scene-specific measure of similarity, from training examples with
known 3D visible-surface overlaps. The result is that we can quickly identify,
for example, which test image is a close-up version of another, and by what
scale factor. Subsequently, local features need only be detected at that scale.
We validate our scene-specific model by showing how this embedding yields
competitive image-matching results, while being simpler, faster, and also
interpretable by humans.
- Abstract(参考訳): 2つの画像が同じ3D表面を撮影していますか?
たとえこれが既知の場面であっても、答えは通常、大きな局所的な特徴のマッチングと幾何学的検証を伴う、スケール空間を横断する高価な探索を必要とする。
このコストは、例えば視覚的再ローカライゼーションにおいて、ギャラリーに対してクエリ画像を評価する際にさらに乗算される。
我々は幾何学的検証の必要性を省略しないが、基本的にルックアップにスケールスペース内の探索をカットする解釈可能な画像埋め込みを提案する。
提案手法は2つの画像間の非対称関係を計測する。
モデルは、既知の3d可視面重なりを持つトレーニング例から、シーン固有の類似度尺度を学習する。
その結果、例えば、どのテストイメージが別のクローズアップバージョンであるか、どのスケールファクタによって素早く識別できるようになりました。
その後、ローカル機能は、そのスケールでのみ検出される。
この埋め込みによって、よりシンプルで高速で、人間によって解釈可能な画像マッチング結果が得られることを示すことによって、シーン固有のモデルを検証する。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences [21.057940424318314]
2つの画像が与えられた場合、画像と画像の対応を確立することで、相対的なカメラのポーズを推定できる。
我々は、3次元カメラ空間における距離対応を予測できるキーポイントマッチングパイプラインであるMicKeyを提案する。
論文 参考訳(メタデータ) (2024-04-09T14:22:50Z) - Doppelgangers: Learning to Disambiguate Images of Similar Structures [76.61267007774089]
幻像マッチングは、人間が区別することは困難であり、3D再構成アルゴリズムに誤った結果をもたらす可能性がある。
本稿では,視覚的曖昧化に対する学習に基づくアプローチを提案し,イメージペア上でのバイナリ分類タスクとして定式化する。
本手法は, 難易度の高い画像の一致を識別し, SfMパイプラインに統合することにより, 正確な3次元再構成を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-05T17:50:36Z) - Occ$^2$Net: Robust Image Matching Based on 3D Occupancy Estimation for
Occluded Regions [14.217367037250296]
Occ$2$Netは、3D占有率を用いて閉塞関係をモデル化し、閉塞領域の一致点を推測する画像マッチング手法である。
本手法は実世界とシミュレーションデータセットの両方で評価し,いくつかの指標における最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-14T13:09:41Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - MeshLoc: Mesh-Based Visual Localization [54.731309449883284]
シーン表現を構築するために,データベースイメージ間のマッチング機能を必要としない,高密度な3Dメッシュに基づく,より柔軟な代替手段を模索する。
驚くべきことに、ニューラルネットワークのレンダリングステージなしで、これらのメッシュのレンダリングの特徴を抽出するときに、競合的な結果が得られる。
以上の結果から,高密度な3次元モデルに基づく表現は,既存の表現の代替として有望なものであり,今後の研究にとって興味深い,挑戦的な方向性を示すものと考えられる。
論文 参考訳(メタデータ) (2022-07-21T21:21:10Z) - 3D Object Detection and Pose Estimation of Unseen Objects in Color
Images with Local Surface Embeddings [35.769234123059086]
本研究では, 画像中のオブジェクトの3次元ポーズを, テクスチャのないCADモデルでのみ検出し, 推定する手法を提案する。
我々のアプローチはディープラーニングと3D幾何を組み合わせており、CADモデルと入力画像とを一致させるために、局所的な3D幾何の埋め込みに依存している。
我々は,Mask-RCNNをクラスに依存しない方法で,再学習せずに新しい物体を検出できることを示す。
論文 参考訳(メタデータ) (2020-10-08T15:57:06Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。