論文の概要: When Epipolar Constraint Meets Non-local Operators in Multi-View Stereo
- arxiv url: http://arxiv.org/abs/2309.17218v1
- Date: Fri, 29 Sep 2023 13:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:41:18.342689
- Title: When Epipolar Constraint Meets Non-local Operators in Multi-View Stereo
- Title(参考訳): マルチビューステレオにおける非局所演算子とのエピポーラ制約
- Authors: Tianqi Liu, Xinyi Ye, Weiyue Zhao, Zhiyu Pan, Min Shi, Zhiguo Cao
- Abstract要約: 学習ベースマルチビューステレオ(MVS)法は特徴マッチングに大きく依存しており、特徴的かつ記述的表現を必要とする。
本稿では,一対の線内での非局所的特徴増大を抑えることを提案する。
ETを学習ベースのMVSベースライン、ET-MVSNetに組み込む。
- 参考スコア(独自算出の注目度): 19.20946574363226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based multi-view stereo (MVS) method heavily relies on feature
matching, which requires distinctive and descriptive representations. An
effective solution is to apply non-local feature aggregation, e.g.,
Transformer. Albeit useful, these techniques introduce heavy computation
overheads for MVS. Each pixel densely attends to the whole image. In contrast,
we propose to constrain non-local feature augmentation within a pair of lines:
each point only attends the corresponding pair of epipolar lines. Our idea
takes inspiration from the classic epipolar geometry, which shows that one
point with different depth hypotheses will be projected to the epipolar line on
the other view. This constraint reduces the 2D search space into the epipolar
line in stereo matching. Similarly, this suggests that the matching of MVS is
to distinguish a series of points lying on the same line. Inspired by this
point-to-line search, we devise a line-to-point non-local augmentation
strategy. We first devise an optimized searching algorithm to split the 2D
feature maps into epipolar line pairs. Then, an Epipolar Transformer (ET)
performs non-local feature augmentation among epipolar line pairs. We
incorporate the ET into a learning-based MVS baseline, named ET-MVSNet.
ET-MVSNet achieves state-of-the-art reconstruction performance on both the DTU
and Tanks-and-Temples benchmark with high efficiency. Code is available at
https://github.com/TQTQliu/ET-MVSNet.
- Abstract(参考訳): 学習ベースマルチビューステレオ(MVS)法は特徴マッチングに大きく依存しており、特徴的かつ記述的表現を必要とする。
効果的な解決策は、非局所的な特徴集約、例えばTransformerを適用することである。
有用ではあるが、これらの技術はMVSに重い計算オーバーヘッドをもたらす。
各ピクセルは画像全体に密集している。
対照的に、各点が対応する一対のエピポーラ線にのみ従うという、一対の直線内での非局所的特徴増大を制限することを提案する。
我々のアイデアは古典的なエピポーラ幾何学から着想を得ており、異なる深さの仮説を持つ一点が他方の視点のエピポーラ直線に射影されることを示した。
この制約はステレオマッチングにおいて2次元探索空間をエピポーラ線に還元する。
同様に、MVSのマッチングは、同じ直線上にある一連の点を区別することを示唆している。
このポイント・ツー・ライン探索に触発されて、我々は直線から点への非局所的な拡張戦略を考案する。
まず,2次元特徴写像をエピポーラ線対に分割する最適化探索アルゴリズムを提案する。
そして、エピポーラ変換器(ET)は、エピポーララインペア間で非局所的特徴増強を行う。
ETを学習ベースのMVSベースライン、ET-MVSNetに組み込む。
ET-MVSNet は DTU と Tanks-and-Temples のベンチマークを高い効率で再現する。
コードはhttps://github.com/TQTQliu/ET-MVSNetで入手できる。
関連論文リスト
- Fully Geometric Panoramic Localization [16.200889977514862]
本稿では,2次元3次元線の形状のみを利用する軽量かつ高精度な位置決め手法を提案する。
プレキャプチャされた3Dマップからパノラマ画像のローカライズを行う。
我々の完全に幾何学的なアプローチは、広範囲なパラメータチューニングやニューラルネットワークのトレーニングを伴わないため、現実の世界に容易に展開できる実用的なアルゴリズムです。
論文 参考訳(メタデータ) (2024-03-29T01:07:20Z) - Representing 3D sparse map points and lines for camera relocalization [1.2974519529978974]
軽量ニューラルネットワークが3Dポイントとラインの両方の特徴を表現するためにどのように学習できるかを示す。
テストにおいて,本手法は,最先端の学習手法に対する最も顕著な向上を図っている。
論文 参考訳(メタデータ) (2024-02-28T03:07:05Z) - RD-VIO: Robust Visual-Inertial Odometry for Mobile Augmented Reality in
Dynamic Environments [55.864869961717424]
視覚的・視覚的慣性オドメトリーシステムでは、動的シーンや純粋な回転の問題に対処することが通常困難である。
我々はこれらの問題に対処するためにRD-VIOと呼ばれる新しい視覚-慣性オドメトリーシステム(VIO)を設計する。
論文 参考訳(メタデータ) (2023-10-23T16:30:39Z) - AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - Structured Epipolar Matcher for Local Feature Matching [39.996313784074225]
局所的な特徴マッチングは、テクスチャレスで反復的なパターンのために難しい。
局所的特徴マッチングのための構造的エピポーラマッチング(SEM)を提案する。
SEMは、幾何情報を反復マッチング方式で活用することができる。
論文 参考訳(メタデータ) (2023-03-29T12:57:27Z) - Rethinking Disparity: A Depth Range Free Multi-View Stereo Based on
Disparity [17.98608948955211]
既存の学習ベースのマルチビューステレオ(MVS)手法は、3Dコストボリュームを構築するために深さ範囲に依存している。
本稿では,DipMVSと呼ばれるエピポーラ分散フロー(E-flow)に基づく分散型MVS法を提案する。
本研究では、DipMVSは深さ範囲に敏感ではなく、GPUメモリを低くすることで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T11:05:02Z) - MVSTER: Epipolar Transformer for Efficient Multi-View Stereo [26.640495084316925]
学習ベースMulti-View Stereo法では,ソース画像を3Dボリュームにワープする。
従来の手法では、余分なネットワークを利用して2次元情報を融合キューとして学習し、3次元空間相関を利用して計算コストを増大させる。
本稿では,2次元のセマンティクスと3次元の空間的関連性の両方を効率的に学習するために,提案したエピポーラ変換器を利用するMVSTERを提案する。
論文 参考訳(メタデータ) (2022-04-15T06:47:57Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - PlueckerNet: Learn to Register 3D Line Reconstructions [57.20244406275875]
本稿では,ユークリッド空間における2つの部分重畳された3次元線再構成の問題をニューラルネットワークで解く手法を提案する。
室内および屋外の両方のデータセットを用いた実験により,本手法の登録精度(回転と翻訳)は,ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-02T11:31:56Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。