論文の概要: Improving Deep Stereo Network Generalization with Geometric Priors
- arxiv url: http://arxiv.org/abs/2008.11098v1
- Date: Tue, 25 Aug 2020 15:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 04:11:43.721868
- Title: Improving Deep Stereo Network Generalization with Geometric Priors
- Title(参考訳): 幾何事前化によるディープステレオネットワークの一般化
- Authors: Jialiang Wang, Varun Jampani, Deqing Sun, Charles Loop, Stan
Birchfield, Jan Kautz
- Abstract要約: 地上の真実が密集した多様な現実世界のシーンの大規模なデータセットを得ることは困難である。
多くのアルゴリズムは、似たようなシーンや合成データセットの小さな実世界のデータセットに依存している。
本稿では,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。
- 参考スコア(独自算出の注目度): 93.09496073476275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end deep learning methods have advanced stereo vision in recent years
and obtained excellent results when the training and test data are similar.
However, large datasets of diverse real-world scenes with dense ground truth
are difficult to obtain and currently not publicly available to the research
community. As a result, many algorithms rely on small real-world datasets of
similar scenes or synthetic datasets, but end-to-end algorithms trained on such
datasets often generalize poorly to different images that arise in real-world
applications. As a step towards addressing this problem, we propose to
incorporate prior knowledge of scene geometry into an end-to-end stereo network
to help networks generalize better. For a given network, we explicitly add a
gradient-domain smoothness prior and occlusion reasoning into the network
training, while the architecture remains unchanged during inference.
Experimentally, we show consistent improvements if we train on synthetic
datasets and test on the Middlebury (real images) dataset. Noticeably, we
improve PSM-Net accuracy on Middlebury from 5.37 MAE to 3.21 MAE without
sacrificing speed.
- Abstract(参考訳): 近年、エンド・ツー・エンドのディープラーニング手法は高度なステレオビジョンを持ち、トレーニングデータとテストデータが類似している場合に優れた結果が得られる。
しかし、密接な地上真理を持つ多様な現実世界のシーンの大規模なデータセットは入手が難しく、現在研究コミュニティに公開されていない。
その結果、多くのアルゴリズムは、類似したシーンや合成データセットの小さな現実世界のデータセットに依存するが、そのようなデータセットで訓練されたエンドツーエンドのアルゴリズムは、現実世界のアプリケーションで発生する異なるイメージにあまり一般化しないことが多い。
この問題を解決するためのステップとして,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。
与えられたネットワークに対して、ネットワークトレーニングに勾配領域の滑らかさと排他的推論を明示的に付加する一方で、アーキテクチャは推論中に変化しない。
実験では,合成データセットをトレーニングし,ミドルベリー(実画像)データセットでテストした場合,一貫した改善を示す。
特に,ミドルベリーのPSM-Net精度を5.37 MAEから3.21 MAEに向上させる。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Domain Adaptation for Real-World Single View 3D Reconstruction [1.611271868398988]
教師なしのドメイン適応は、ラベル付き合成ソースドメインからラベルなしの実際のターゲットドメインに知識を転送するために使用することができる。
本稿では,3次元モデルでは対象のドメインデータが教師されないが,クラスラベルでは教師されないという事実を生かして,新しいアーキテクチャを提案する。
その結果はShapeNetをソースドメインとして、Object Domain Suite(ODDS)データセット内のドメインをターゲットとして実行されます。
論文 参考訳(メタデータ) (2021-08-24T22:02:27Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - DmifNet:3D Shape Reconstruction Based on Dynamic Multi-Branch
Information Fusion [14.585272577456472]
シングルビュー画像からの3Dオブジェクトの再構築は、長年の課題である。
複雑なトポロジーで3次元形状を正確に再構築することは, それまでの作業では困難であった。
2次元画像から任意の位相の高忠実度3次元形状を復元できる動的マルチブランチ情報融合ネットワーク(DmifNet)を提案する。
論文 参考訳(メタデータ) (2020-11-21T11:31:27Z) - Learning Stereo from Single Images [41.32821954097483]
教師付きディープネットワークはステレオ画像対の対応を見つける最良の方法の一つである。
地上の真理深度やそれに対応するステレオペアに高い依存度を持つことは不要である。
単眼深度推定の最近の進歩に触発されて、単眼画像から可塑性不均一マップを生成し、その欠陥不均一マップを慎重に設計したパイプラインに使用し、ステレオトレーニングペアを生成する。
論文 参考訳(メタデータ) (2020-08-04T12:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。