論文の概要: SfM-TTR: Using Structure from Motion for Test-Time Refinement of
Single-View Depth Networks
- arxiv url: http://arxiv.org/abs/2211.13551v2
- Date: Fri, 31 Mar 2023 11:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 17:10:34.756164
- Title: SfM-TTR: Using Structure from Motion for Test-Time Refinement of
Single-View Depth Networks
- Title(参考訳): SfM-TTR:シングルビュー深度ネットワークのテスト時間リファインメントのための動き構造の利用
- Authors: Sergio Izquierdo, Javier Civera
- Abstract要約: 本研究では,SfM-TTRと呼ばれる新しいテスト時間改善手法を提案する。
具体的には,テスト時間自己監督信号としてスパースSfM点雲を用いる。
以上の結果から,SfM-TTRをいくつかの最先端の自己教師型ネットワークに付加することで,その性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 13.249453757295086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating a dense depth map from a single view is geometrically ill-posed,
and state-of-the-art methods rely on learning depth's relation with visual
appearance using deep neural networks. On the other hand, Structure from Motion
(SfM) leverages multi-view constraints to produce very accurate but sparse
maps, as matching across images is typically limited by locally discriminative
texture. In this work, we combine the strengths of both approaches by proposing
a novel test-time refinement (TTR) method, denoted as SfM-TTR, that boosts the
performance of single-view depth networks at test time using SfM multi-view
cues. Specifically, and differently from the state of the art, we use sparse
SfM point clouds as test-time self-supervisory signal, fine-tuning the network
encoder to learn a better representation of the test scene. Our results show
how the addition of SfM-TTR to several state-of-the-art self-supervised and
supervised networks improves significantly their performance, outperforming
previous TTR baselines mainly based on photometric multi-view consistency. The
code is available at https://github.com/serizba/SfM-TTR.
- Abstract(参考訳): 単一の視点から深度マップを推定することは幾何学的に不適切であり、最先端の手法は深度ニューラルネットワークを用いた視覚的外見との学習深度の関係に依存する。
一方、structure from motion (sfm) は、画像間のマッチングが局所的な識別テクスチャによって制限されるため、非常に正確だがスパースなマップを生成するために、多視点の制約を利用する。
本研究では、SfM-TTRと呼ばれる新しいテスト時間改善手法を提案し、SfMマルチビューキューを用いてテスト時のシングルビュー深度ネットワークの性能を向上させることにより、両手法の強みを組み合わせる。
具体的には、テスト時の自己監督信号としてスパースSfM点群を用い、ネットワークエンコーダを微調整して、テストシーンのより良い表現を学習する。
以上の結果から,SfM-TTRがいくつかの最先端の自己監督型・教師型ネットワークに追加されたことにより,その性能が大幅に向上し,従来のTTRベースラインよりも高い結果が得られた。
コードはhttps://github.com/serizba/sfm-ttrで入手できる。
関連論文リスト
- MEDeA: Multi-view Efficient Depth Adjustment [45.90423821963144]
MEDeAは、既存のテスト時間アプローチよりも桁違いに高速な効率的な多視点テスト時間深度調整法である。
提案手法は, TUM RGB-D, 7Scenes, ScanNet のベンチマークに新たな最先端性を設定し,ARKitScenes データセットから取得したスマートフォンデータの処理に成功している。
論文 参考訳(メタデータ) (2024-06-17T19:39:13Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - Self-distilled Feature Aggregation for Self-supervised Monocular Depth
Estimation [11.929584800629673]
本稿では,低スケールと高スケールの2つの特徴を同時に集約する自己拡張型特徴集合(SDFA)モジュールを提案する。
自己教師付き単眼深度推定のためのSDFAに基づくネットワークを提案し,提案したネットワークをトレーニングするための自己蒸留トレーニング戦略を設計する。
KITTIデータセットにおける実験結果から,提案手法は,ほとんどの場合において,比較最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-09-15T07:00:52Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Monocular Depth Parameterizing Networks [15.791732557395552]
実現可能な形状を持つ深度マップの集合のパラメータ化を提供するネットワーク構造を提案する。
これにより、他の画像に関して、写真に一貫性のあるソリューションの形状を検索できる。
実験により,本手法はより正確な深度マップを生成し,競合する最先端手法よりも一般化することを示す。
論文 参考訳(メタデータ) (2020-12-21T13:02:41Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - MSDPN: Monocular Depth Prediction with Partial Laser Observation using
Multi-stage Neural Networks [1.1602089225841632]
深層学習に基づくマルチステージネットワークアーキテクチャであるMulti-Stage Depth Prediction Network (MSDPN)を提案する。
MSDPNは2次元LiDARと単眼カメラを用いて深度マップを予測する。
実験により,本ネットワークは最先端手法に対して有望な性能を示す。
論文 参考訳(メタデータ) (2020-08-04T08:27:40Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。