論文の概要: ActiveZero: Mixed Domain Learning for Active Stereovision with Zero
Annotation
- arxiv url: http://arxiv.org/abs/2112.02772v1
- Date: Mon, 6 Dec 2021 04:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:30:03.349039
- Title: ActiveZero: Mixed Domain Learning for Active Stereovision with Zero
Annotation
- Title(参考訳): ActiveZero: ゼロアノテーションによるアクティブステレオビジョンのための混合ドメイン学習
- Authors: Isabella Liu, Edward Yang, Jianyu Tao, Rui Chen, Xiaoshuai Zhang, Qing
Ran, Zhu Liu, Hao Su
- Abstract要約: 本稿では,アクティブステレオビジョンシステムのための混合ドメイン学習ソリューションであるActiveZeroを提案する。
メソッドをエンドツーエンドにトレーニングする方法と,各モジュールが最終結果を達成する上で重要であることを示す。
- 参考スコア(独自算出の注目度): 21.33158815473845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional depth sensors generate accurate real world depth estimates that
surpass even the most advanced learning approaches trained only on simulation
domains. Since ground truth depth is readily available in the simulation domain
but quite difficult to obtain in the real domain, we propose a method that
leverages the best of both worlds. In this paper we present a new framework,
ActiveZero, which is a mixed domain learning solution for active stereovision
systems that requires no real world depth annotation. First, we demonstrate the
transferability of our method to out-of-distribution real data by using a mixed
domain learning strategy. In the simulation domain, we use a combination of
supervised disparity loss and self-supervised losses on a shape primitives
dataset. By contrast, in the real domain, we only use self-supervised losses on
a dataset that is out-of-distribution from either training simulation data or
test real data. Second, our method introduces a novel self-supervised loss
called temporal IR reprojection to increase the robustness and accuracy of our
reprojections in hard-to-perceive regions. Finally, we show how the method can
be trained end-to-end and that each module is important for attaining the end
result. Extensive qualitative and quantitative evaluations on real data
demonstrate state of the art results that can even beat a commercial depth
sensor.
- Abstract(参考訳): 従来の深度センサは、シミュレーションドメインのみで訓練された最も高度な学習アプローチでさえも、正確な現実世界の深度推定を生成する。
基底真理の深さはシミュレーション領域では容易に得られるが、実領域では取得が極めて困難であるため、両世界の最善を生かした手法を提案する。
本稿では,実世界の奥行きアノテーションを必要としないアクティブステレオビジョンシステムのための混合ドメイン学習ソリューションであるactivezeroを提案する。
まず,混合ドメイン学習戦略を用いて,本手法の分散外実データへの転送可能性を示す。
シミュレーション領域では、形状プリミティブデータセット上で、教師付き不均一損失と自己監督型損失の組み合わせを用いる。
対照的に、実際のドメインでは、シミュレーションデータのトレーニングや実際のデータのテストから外れたデータセットに対してのみ、自己管理的な損失を使用する。
第2に, 時間的赤外再投射と呼ばれる新たな自己監督的損失を導入し, 知覚困難領域における再投射の堅牢性と精度を高める。
最後に、メソッドをエンドツーエンドにトレーニングする方法と、各モジュールが最終結果を達成する上で重要であることを示す。
実データに対する広範囲な質的、定量的評価は、商業的な深度センサーに勝る技術結果の状態を実証している。
関連論文リスト
- One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - What Stops Learning-based 3D Registration from Working in the Real
World? [53.68326201131434]
この研究は、3Dポイントのクラウド登録失敗の原因を特定し、その原因を分析し、解決策を提案する。
最終的に、これは最も実践的な3D登録ネットワーク(BPNet)に変換される。
我々のモデルは微調整をせずに実データに一般化し、商用センサで得られた見えない物体の点雲上で最大67%の精度に達する。
論文 参考訳(メタデータ) (2021-11-19T19:24:27Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。
光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。
提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文 参考訳(メタデータ) (2021-06-06T06:19:50Z) - Learning a Domain-Agnostic Visual Representation for Autonomous Driving
via Contrastive Loss [25.798361683744684]
ドメイン認識コントラスト学習(Domain-Agnostic Contrastive Learning、DACL)は、2段階の非監視ドメイン適応フレームワークである。
提案手法は,従来の最新手法に比べ,単眼深度推定作業における性能向上を実現した。
論文 参考訳(メタデータ) (2021-03-10T07:06:03Z) - Sim2Real for Self-Supervised Monocular Depth and Segmentation [7.376636976924]
自動運転車の認識タスクのための画像に基づく学習手法は、過度に適合することなく適切にトレーニングするために、大量のラベル付き実データを必要とする。
領域適応の最近の進歩は、共有潜在空間仮定がシミュレーションと実際の領域の間のギャップを埋めるのに役立つことを示している。
我々は,2つのVAEベースアーキテクチャを共用し,仮想空間と補助デコーダを組み込むことで,実領域において2つの基幹データを必要とすることなく,sim2realギャップをブリッジできることを実証した。
論文 参考訳(メタデータ) (2020-12-01T03:25:02Z) - Exploring the Capabilities and Limits of 3D Monocular Object Detection
-- A Study on Simulation and Real World Data [0.0]
単眼カメラデータに基づく3次元物体検出が自動運転の鍵となる。
近年のディープラーニング手法は, 単一の画像から深度情報を復元する有望な結果を示す。
本稿では,深度推定の異なるパラメータ化が可能な3次元物体検出パイプラインの性能評価を行う。
論文 参考訳(メタデータ) (2020-05-15T09:05:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。