論文の概要: Stereo Matching by Self-supervision of Multiscopic Vision
- arxiv url: http://arxiv.org/abs/2104.04170v1
- Date: Fri, 9 Apr 2021 02:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 19:04:44.054034
- Title: Stereo Matching by Self-supervision of Multiscopic Vision
- Title(参考訳): 多眼視の自己スーパービジョンによるステレオマッチング
- Authors: Weihao Yuan, Yazhan Zhang, Bingkun Wu, Siyu Zhu, Ping Tan, Michael Yu
Wang, Qifeng Chen
- Abstract要約: カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
- 参考スコア(独自算出の注目度): 65.38359887232025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning for depth estimation possesses several advantages
over supervised learning. The benefits of no need for ground-truth depth,
online fine-tuning, and better generalization with unlimited data attract
researchers to seek self-supervised solutions. In this work, we propose a new
self-supervised framework for stereo matching utilizing multiple images
captured at aligned camera positions. A cross photometric loss, an
uncertainty-aware mutual-supervision loss, and a new smoothness loss are
introduced to optimize the network in learning disparity maps end-to-end
without ground-truth depth information. To train this framework, we build a new
multiscopic dataset consisting of synthetic images rendered by 3D engines and
real images captured by real cameras. After being trained with only the
synthetic images, our network can perform well in unseen outdoor scenes. Our
experiment shows that our model obtains better disparity maps than previous
unsupervised methods on the KITTI dataset and is comparable to supervised
methods when generalized to unseen data. Our source code and dataset will be
made public, and more results are provided in the supplement.
- Abstract(参考訳): 深さ推定のための自己教師あり学習は教師あり学習よりもいくつかの利点がある。
地底深度の不要な利点、オンラインの微調整、無制限のデータによるより良い一般化により、研究者は自己管理的なソリューションを求めることができる。
本研究では,カメラ位置で撮影した複数の画像を利用したステレオマッチングのための自己教師型フレームワークを提案する。
地中深度情報のないエンドツーエンドマップの学習において, クロス測光損失, 不確実性を考慮した相互スーパービジョン損失, 新たな滑らかさ損失を導入し, ネットワークを最適化する。
このフレームワークをトレーニングするために、3Dエンジンでレンダリングされた合成画像と、実際のカメラでキャプチャされた実画像からなる新しいマルチスコープデータセットを構築した。
合成画像のみをトレーニングした後、我々のネットワークは見知らぬ屋外シーンでよく機能する。
実験の結果,本モデルでは,従来のKITTIデータセットの教師なし手法よりも精度の良い不均一性マップが得られた。
私たちのソースコードとデータセットは公開され、さらに多くの結果がサプリメントで提供されます。
関連論文リスト
- Sparse Multi-baseline SAR Cross-modal 3D Reconstruction of Vehicle Targets [5.6680936716261705]
本稿では,光学画像と異種レンダリングとクロスモーダル監視を統合したクロスモーダル再構成ネットワーク(CMR-Net)を提案する。
シミュレーションデータのみに基づいてトレーニングされたCMR-Netは、公開可能なシミュレーションデータセットと実測データセットの両方で、高解像度の再構築機能を示す。
論文 参考訳(メタデータ) (2024-06-06T15:18:59Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - An evaluation of Deep Learning based stereo dense matching dataset shift
from aerial images and a large scale stereo dataset [2.048226951354646]
そこで本研究では,光検出・ランドング(LiDAR)と画像から直接地中不均質マップを生成する手法を提案する。
多様なシーンタイプ、画像解像度、幾何学的構成を持つデータセット間の11の密マッチング手法を評価した。
論文 参考訳(メタデータ) (2024-02-19T20:33:46Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Learning Collision-Free Space Detection from Stereo Images: Homography
Matrix Brings Better Data Augmentation [16.99302954185652]
少数のトレーニングサンプルを使用して、深い畳み込みニューラルネットワーク(DCNN)を訓練することは、依然としてオープンな課題です。
本稿では,dcnnの性能向上に有効なトレーニングデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-12-14T19:14:35Z) - Improving Deep Stereo Network Generalization with Geometric Priors [93.09496073476275]
地上の真実が密集した多様な現実世界のシーンの大規模なデータセットを得ることは困難である。
多くのアルゴリズムは、似たようなシーンや合成データセットの小さな実世界のデータセットに依存している。
本稿では,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。
論文 参考訳(メタデータ) (2020-08-25T15:24:02Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。