論文の概要: Handling Multiple Hypotheses in Coarse-to-Fine Dense Image Matching
- arxiv url: http://arxiv.org/abs/2509.08805v1
- Date: Wed, 10 Sep 2025 17:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.533668
- Title: Handling Multiple Hypotheses in Coarse-to-Fine Dense Image Matching
- Title(参考訳): 粗大な高密度画像マッチングにおける多重仮説の扱い
- Authors: Matthieu Vilain, Rémi Giraud, Yannick Berthoumieu, Guillaume Bourmaud,
- Abstract要約: デンス画像マッチングは、部分的に重なり合うターゲット画像において、ソース画像の各画素に対応するものを見つけることを目的としている。
State-of-the-artメソッドは、1つの対応する仮説が各スケールでソース位置ごとに生成される粗大なメカニズムに依存している。
各スケールで複数の仮説を伝播させるビーム探索戦略を検討し,これら複数の仮説をクロスアテンション層に統合することを提案する。
- 参考スコア(独自算出の注目度): 4.083182125683813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense image matching aims to find a correspondent for every pixel of a source image in a partially overlapping target image. State-of-the-art methods typically rely on a coarse-to-fine mechanism where a single correspondent hypothesis is produced per source location at each scale. In challenging cases -- such as at depth discontinuities or when the target image is a strong zoom-in of the source image -- the correspondents of neighboring source locations are often widely spread and predicting a single correspondent hypothesis per source location at each scale may lead to erroneous matches. In this paper, we investigate the idea of predicting multiple correspondent hypotheses per source location at each scale instead. We consider a beam search strategy to propagat multiple hypotheses at each scale and propose integrating these multiple hypotheses into cross-attention layers, resulting in a novel dense matching architecture called BEAMER. BEAMER learns to preserve and propagate multiple hypotheses across scales, making it significantly more robust than state-of-the-art methods, especially at depth discontinuities or when the target image is a strong zoom-in of the source image.
- Abstract(参考訳): デンス画像マッチングは、部分的に重なり合うターゲット画像において、ソース画像の各画素に対応するものを見つけることを目的としている。
State-of-the-artメソッドは通常、各スケールでソース位置ごとに単一の対応仮説が生成される粗大なメカニズムに依存している。
深度不連続やターゲット画像がソースイメージの強力なズームインであるような挑戦的なケースでは、近隣のソースロケーションの対応者が広範に拡散し、各スケールでソースロケーション毎の単一の対応仮説を予測することは、誤った一致につながる可能性がある。
本稿では,ソース位置毎に複数の対応仮説を各スケールで予測する手法について検討する。
各スケールで複数の仮説を伝播させるビーム探索戦略を検討し,これら複数の仮説をクロスアテンション層に統合し,BEAMERと呼ばれる新しい密マッチングアーキテクチャを提案する。
BEAMERは、複数の仮説を大規模に保存し、伝播させることを学び、特に深度不連続や、ターゲット画像がソース画像の強力なズームインである場合に、最先端の手法よりもはるかに堅牢になる。
関連論文リスト
- Prompt-Free Conditional Diffusion for Multi-object Image Augmentation [45.92182911052815]
マルチオブジェクト画像拡張のためのプロンプトフリー条件付き拡散フレームワークを提案する。
具体的には、画像から意味を抽出し、テキストを置換するローカル・グローバル・セマンティック・フュージョン戦略を導入する。
また、モデルトレーニングにおける従来の再建損失を支援するために、報酬モデルに基づく計数損失を設計する。
論文 参考訳(メタデータ) (2025-07-08T16:27:48Z) - Integrating Generative and Physics-Based Models for Ptychographic Imaging with Uncertainty Quantification [0.0]
Ptychographyは、走査コヒーレントな回折イメージング技術であり、拡張サンプルのナノメートル規模の特徴を撮像することができる。
本稿では,近隣のスキャン位置間の重複を少なくしながらも効果的に機能するptychographyのベイズ逆解析法を提案する。
論文 参考訳(メタデータ) (2024-12-14T16:16:37Z) - ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文 参考訳(メタデータ) (2024-08-16T22:45:46Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。
本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。
提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - 3D-Aware Hypothesis & Verification for Generalizable Relative Object
Pose Estimation [69.73691477825079]
一般化可能なオブジェクトポーズ推定の問題に対処する新しい仮説検証フレームワークを提案する。
信頼性を計測するために,2つの入力画像から学習した3次元オブジェクト表現に3次元変換を明示的に適用する3D認識検証を導入する。
論文 参考訳(メタデータ) (2023-10-05T13:34:07Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - An Adversarial Learning Based Approach for Unknown View Tomographic
Reconstruction [27.661868972910742]
しばしば、射影線に関連する射影角が予め知られていると仮定される。
しかし、特定の状況下では、これらの角度は概して知られているか、完全には分かっていない。
画像と投影角分布を復元する逆学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-23T00:28:47Z) - COTR: Correspondence Transformer for Matching Across Images [31.995943755283786]
本稿では,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。
そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。
論文 参考訳(メタデータ) (2021-03-25T22:47:02Z) - Learning Accurate Dense Correspondences and When to Trust Them [161.76275845530964]
2つの画像に関連する密度の高い流れ場と、堅牢な画素方向の信頼度マップの推定を目指しています。
フロー予測とその不確実性を共同で学習するフレキシブルな確率的アプローチを開発する。
本手法は,幾何学的マッチングと光フローデータセットに挑戦する最新の結果を得る。
論文 参考訳(メタデータ) (2021-01-05T18:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。