論文の概要: Learning Stereo from Single Images
- arxiv url: http://arxiv.org/abs/2008.01484v2
- Date: Thu, 20 Aug 2020 18:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:42:47.529046
- Title: Learning Stereo from Single Images
- Title(参考訳): 単一画像からのステレオ学習
- Authors: Jamie Watson, Oisin Mac Aodha, Daniyar Turmukhambetov, Gabriel J.
Brostow, Michael Firman
- Abstract要約: 教師付きディープネットワークはステレオ画像対の対応を見つける最良の方法の一つである。
地上の真理深度やそれに対応するステレオペアに高い依存度を持つことは不要である。
単眼深度推定の最近の進歩に触発されて、単眼画像から可塑性不均一マップを生成し、その欠陥不均一マップを慎重に設計したパイプラインに使用し、ステレオトレーニングペアを生成する。
- 参考スコア(独自算出の注目度): 41.32821954097483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised deep networks are among the best methods for finding
correspondences in stereo image pairs. Like all supervised approaches, these
networks require ground truth data during training. However, collecting large
quantities of accurate dense correspondence data is very challenging. We
propose that it is unnecessary to have such a high reliance on ground truth
depths or even corresponding stereo pairs. Inspired by recent progress in
monocular depth estimation, we generate plausible disparity maps from single
images. In turn, we use those flawed disparity maps in a carefully designed
pipeline to generate stereo training pairs. Training in this manner makes it
possible to convert any collection of single RGB images into stereo training
data. This results in a significant reduction in human effort, with no need to
collect real depths or to hand-design synthetic data. We can consequently train
a stereo matching network from scratch on datasets like COCO, which were
previously hard to exploit for stereo. Through extensive experiments we show
that our approach outperforms stereo networks trained with standard synthetic
datasets, when evaluated on KITTI, ETH3D, and Middlebury.
- Abstract(参考訳): 教師付きディープネットワークはステレオ画像対の対応を見つける最良の方法の一つである。
他の教師付きアプローチと同様に、これらのネットワークはトレーニング中に真実のデータを必要とする。
しかし、大量の高精度な通信データの収集は非常に困難である。
地上の真理深度やそれに対応するステレオペアに高い依存度を持つことは不要である。
近年の単眼深度推定の進歩に触発されて,単眼画像から可視差マップを生成する。
代わりに、これらの欠陥マップを慎重に設計されたパイプラインで使用し、ステレオトレーニングペアを生成する。
この方法でトレーニングすることで、単一のrgbイメージのコレクションをステレオトレーニングデータに変換することができる。
この結果、人間の労力は大幅に削減され、実際の深度を収集したり、合成データを手作業で設計する必要がなくなる。
その結果,これまでステレオの利用が難しかったcocoなどのデータセット上で,ステレオマッチングネットワークをスクラッチからトレーニングすることが可能となった。
提案手法は,KITTI,ETH3D,ミドルベリーで評価した場合,標準合成データセットを用いてトレーニングしたステレオネットワークよりも優れていることを示す。
関連論文リスト
- An evaluation of Deep Learning based stereo dense matching dataset shift
from aerial images and a large scale stereo dataset [2.048226951354646]
そこで本研究では,光検出・ランドング(LiDAR)と画像から直接地中不均質マップを生成する手法を提案する。
多様なシーンタイプ、画像解像度、幾何学的構成を持つデータセット間の11の密マッチング手法を評価した。
論文 参考訳(メタデータ) (2024-02-19T20:33:46Z) - NeRF-Supervised Deep Stereo [33.54504171850584]
本稿では,深層ステレオネットワークのトレーニングを,地平を伴わずに行う新しいフレームワークについて紹介する。
最先端のニューラルネットワークレンダリングソリューションを活用することで、単一のハンドヘルドカメラで収集した画像シーケンスからステレオトレーニングデータを生成する。
それらの上,NeRFを教師とするトレーニングを行ない,立体三重項をレンダリングしてオクルージョンと深度マップを代用ラベルとして補償する。
論文 参考訳(メタデータ) (2023-03-30T17:59:58Z) - UAVStereo: A Multiple Resolution Dataset for Stereo Matching in UAV
Scenarios [0.6524460254566905]
本稿では,UAVStereoと呼ばれる多解像度UAVシナリオデータセットを構築し,34k以上のステレオ画像ペアが3つの典型的なシーンをカバーしている。
本稿では,UAVシナリオにおける課題に対処する際の限界を明らかにするとともに,従来型および最先端のディープラーニング手法の評価を行う。
論文 参考訳(メタデータ) (2023-02-20T16:45:27Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - TriStereoNet: A Trinocular Framework for Multi-baseline Disparity
Estimation [18.690105889241828]
本稿では,三眼装置からデータを処理するためのエンドツーエンドネットワークを提案する。
この設計では、共通の参照画像を持つ2対の双眼鏡データをネットワークの共有重みで処理する。
また、2つのベースラインの4Dデータをマージするためのガイド付き加算法を提案する。
論文 参考訳(メタデータ) (2021-11-24T13:58:17Z) - Self-Supervised Depth Completion for Active Stereo [55.79929735390945]
アクティブステレオシステムは、低コストで高品質な深度マップのため、ロボット産業で広く利用されている。
これらの深度センサーはステレオアーチファクトに悩まされており、密度の深い深度推定を提供していない。
本稿では, 高精度な深度マップを推定するアクティブステレオシステムのための, 自己監督型深度補完法を提案する。
論文 参考訳(メタデータ) (2021-10-07T07:33:52Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Improving Deep Stereo Network Generalization with Geometric Priors [93.09496073476275]
地上の真実が密集した多様な現実世界のシーンの大規模なデータセットを得ることは困難である。
多くのアルゴリズムは、似たようなシーンや合成データセットの小さな実世界のデータセットに依存している。
本稿では,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。
論文 参考訳(メタデータ) (2020-08-25T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。