論文の概要: Learning Optical Flow, Depth, and Scene Flow without Real-World Labels
- arxiv url: http://arxiv.org/abs/2203.15089v1
- Date: Mon, 28 Mar 2022 20:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:44:47.263611
- Title: Learning Optical Flow, Depth, and Scene Flow without Real-World Labels
- Title(参考訳): 実世界ラベルのない光学的流れ, 深さ, シーンフローの学習
- Authors: Vitor Guizilini, Kuan-Hui Lee, Rares Ambrus, Adrien Gaidon
- Abstract要約: 自己教師付き単眼深度推定により、ロボットは生のビデオストリームから3D知覚を学習できる。
本稿では,深度,光学的流れ,シーンフローを共同学習できる新しい手法であるDRAFTを提案する。
- 参考スコア(独自算出の注目度): 33.586124995327225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation enables robots to learn 3D
perception from raw video streams. This scalable approach leverages projective
geometry and ego-motion to learn via view synthesis, assuming the world is
mostly static. Dynamic scenes, which are common in autonomous driving and
human-robot interaction, violate this assumption. Therefore, they require
modeling dynamic objects explicitly, for instance via estimating pixel-wise 3D
motion, i.e. scene flow. However, the simultaneous self-supervised learning of
depth and scene flow is ill-posed, as there are infinitely many combinations
that result in the same 3D point. In this paper we propose DRAFT, a new method
capable of jointly learning depth, optical flow, and scene flow by combining
synthetic data with geometric self-supervision. Building upon the RAFT
architecture, we learn optical flow as an intermediate task to bootstrap depth
and scene flow learning via triangulation. Our algorithm also leverages
temporal and geometric consistency losses across tasks to improve multi-task
learning. Our DRAFT architecture simultaneously establishes a new state of the
art in all three tasks in the self-supervised monocular setting on the standard
KITTI benchmark. Project page: https://sites.google.com/tri.global/draft.
- Abstract(参考訳): ロボットは生のビデオストリームから3D知覚を学習することができる。
このスケーラブルなアプローチは、射影幾何学とエゴモーションを利用して、世界がほとんど静的であると仮定して、ビュー合成を通して学ぶ。
自律運転や人間とロボットのインタラクションに共通する動的なシーンは、この前提に反する。
そのため、例えば、ピクセルワイド3Dモーション、すなわちシーンフローを推定することで、動的オブジェクトを明示的にモデリングする必要がある。
しかし, 深度とシーンフローの同時学習は, 無限に多くの組み合わせが存在するため, 同一の3次元点が得られる。
本稿では,合成データと幾何学的自己スーパービジョンを組み合わせることにより,深度,光流,シーンフローを共同学習できる新しい手法を提案する。
RAFTアーキテクチャ上に構築した光学フローは,三角測量による奥行きのブートストラップとシーンフロー学習の中間タスクとして学習する。
また,タスク間の時間的・幾何学的整合性損失を利用してマルチタスク学習を改善する。
我々のDRAFTアーキテクチャは、標準KITTIベンチマークにおける自己監督単分子設定において、3つのタスクすべてにおいて、同時に新しい技術状態を確立する。
プロジェクトページ: https://sites.google.com/tri.global/draft.com
関連論文リスト
- Incorporating dense metric depth into neural 3D representations for view synthesis and relighting [25.028859317188395]
ロボット応用では、密度の深い距離の深さをステレオで直接測定することができ、照明を制御できる。
本研究は,ニューラルネットワークによる3次元表現のトレーニングに高密度な距離深度を組み込む手法を実証する。
また、パイプラインに必要なデータを取得し、リライティングとビュー合成の結果を示すために開発されたマルチフラッシュステレオカメラシステムについても論じる。
論文 参考訳(メタデータ) (2024-09-04T20:21:13Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Mono-hydra: Real-time 3D scene graph construction from monocular camera
input with IMU [0.0]
ロボットが3D環境を自律的にナビゲートする能力は、空間概念の理解に依存する。
3Dシーングラフは、概念とその関連性の層グラフとして環境を表現するための堅牢なツールとして登場した。
本稿では,屋内シナリオに着目したモノクロカメラとIMUセンサーを組み合わせたリアルタイム空間認識システムMono-Hydraについて述べる。
論文 参考訳(メタデータ) (2023-08-10T11:58:38Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point
Clouds [4.518012967046983]
2つの連続時間フレーム間のスパースサンプリング点の3次元空間における流れを理解することは、現代の幾何学駆動系の中核石である。
本稿では,咬合下の3次元シーンフロー推定のための新しい自己教師あり学習法とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-10T09:55:19Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Distilled Semantics for Comprehensive Scene Understanding from Videos [53.49501208503774]
本稿では,一眼レフカメラによる全体像の理解に向けて,セマンティクスとともに深度や動きを学習し,さらなる一歩を踏み出した。
これら3つの課題を,知識蒸留と自己監督に基づく新たなトレーニングプロトコルによって共同で解決する。
その結果, 単眼深度推定, 光流, モーションセグメンテーションの最先端結果が得られた。
論文 参考訳(メタデータ) (2020-03-31T08:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。