論文の概要: TriStereoNet: A Trinocular Framework for Multi-baseline Disparity
Estimation
- arxiv url: http://arxiv.org/abs/2111.12502v1
- Date: Wed, 24 Nov 2021 13:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:30:10.721032
- Title: TriStereoNet: A Trinocular Framework for Multi-baseline Disparity
Estimation
- Title(参考訳): TriStereoNet: マルチベースライン差分推定のための三眼フレームワーク
- Authors: Faranak Shamsafar, Andreas Zell
- Abstract要約: 本稿では,三眼装置からデータを処理するためのエンドツーエンドネットワークを提案する。
この設計では、共通の参照画像を持つ2対の双眼鏡データをネットワークの共有重みで処理する。
また、2つのベースラインの4Dデータをマージするためのガイド付き加算法を提案する。
- 参考スコア(独自算出の注目度): 18.690105889241828
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stereo vision is an effective technique for depth estimation with broad
applicability in autonomous urban and highway driving. While various deep
learning-based approaches have been developed for stereo, the input data from a
binocular setup with a fixed baseline are limited. Addressing such a problem,
we present an end-to-end network for processing the data from a trinocular
setup, which is a combination of a narrow and a wide stereo pair. In this
design, two pairs of binocular data with a common reference image are treated
with shared weights of the network and a mid-level fusion. We also propose a
Guided Addition method for merging the 4D data of the two baselines.
Additionally, an iterative sequential self-supervised and supervised learning
on real and synthetic datasets is presented, making the training of the
trinocular system practical with no need to ground-truth data of the real
dataset. Experimental results demonstrate that the trinocular disparity network
surpasses the scenario where individual pairs are fed into a similar
architecture. Code and dataset:
https://github.com/cogsys-tuebingen/tristereonet.
- Abstract(参考訳): ステレオビジョンは,自律型都市走行と高速道路走行に広く適用可能な深度推定に有効な手法である。
ステレオのための様々なディープラーニングベースのアプローチが開発されているが、固定ベースライン付き双眼装置からの入力データは限られている。
このような問題に対処するため、細いステレオペアと広いステレオペアを組み合わせた三眼装置からデータを処理するためのエンドツーエンドネットワークを提案する。
この設計では、共通の参照画像を持つ2対の双眼鏡データをネットワークの共有重みと中間レベルの融合で処理する。
また、2つのベースラインの4Dデータをマージするためのガイド付き加算法を提案する。
さらに,実データおよび合成データセット上での逐次的自己教師付き学習と教師付き学習を提示し,実データ集合の接地データを必要としない三項システムの訓練を実践する。
実験により、三眼不均質ネットワークは、個々のペアが同様のアーキテクチャに供給されるシナリオを超越していることが示された。
コードとデータセット:https://github.com/cogsys-tuebingen/tristereonet
関連論文リスト
- Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching [7.840781070208874]
ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。
合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。
実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-14T03:01:36Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation
for Autonomous Driving [5.347428263669927]
この論文は、視覚に基づく3D知覚技術の進歩への多面的な貢献である。
第1節では、この論文はモノクロとステレオの両方のオブジェクト検出アルゴリズムに構造的拡張を導入している。
第2のセグメントは、データ駆動戦略と、3D視覚検出における実世界の応用に特化している。
論文 参考訳(メタデータ) (2024-03-04T13:42:54Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Self-Supervised Depth Estimation in Laparoscopic Image using 3D
Geometric Consistency [7.902636435901286]
立体対に隠された3次元構造情報を利用する自己教師型深度推定器M3Depthを提案する。
提案手法は,公開データセットと新たに取得したデータセットの両方において,従来の自己教師型アプローチよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-08-17T17:03:48Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network [35.03201732370496]
全方位画像からの一視点深度推定は、自律運転やシーン再構築といった幅広い応用で人気を博している。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
次に、人間の眼を模倣してデータセットから効果的に学習する、エンドツーエンドのマルチタスク学習ネットワークであるSegFuseを提案する。
論文 参考訳(メタデータ) (2022-02-16T11:56:31Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z) - Learning Stereo from Single Images [41.32821954097483]
教師付きディープネットワークはステレオ画像対の対応を見つける最良の方法の一つである。
地上の真理深度やそれに対応するステレオペアに高い依存度を持つことは不要である。
単眼深度推定の最近の進歩に触発されて、単眼画像から可塑性不均一マップを生成し、その欠陥不均一マップを慎重に設計したパイプラインに使用し、ステレオトレーニングペアを生成する。
論文 参考訳(メタデータ) (2020-08-04T12:22:21Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。