論文の概要: Distilled Semantics for Comprehensive Scene Understanding from Videos
- arxiv url: http://arxiv.org/abs/2003.14030v1
- Date: Tue, 31 Mar 2020 08:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:20:53.657151
- Title: Distilled Semantics for Comprehensive Scene Understanding from Videos
- Title(参考訳): ビデオからの情景理解のための蒸留セマンティクス
- Authors: Fabio Tosi, Filippo Aleotti, Pierluigi Zama Ramirez, Matteo Poggi,
Samuele Salti, Luigi Di Stefano and Stefano Mattoccia
- Abstract要約: 本稿では,一眼レフカメラによる全体像の理解に向けて,セマンティクスとともに深度や動きを学習し,さらなる一歩を踏み出した。
これら3つの課題を,知識蒸留と自己監督に基づく新たなトレーニングプロトコルによって共同で解決する。
その結果, 単眼深度推定, 光流, モーションセグメンテーションの最先端結果が得られた。
- 参考スコア(独自算出の注目度): 53.49501208503774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole understanding of the surroundings is paramount to autonomous systems.
Recent works have shown that deep neural networks can learn geometry (depth)
and motion (optical flow) from a monocular video without any explicit
supervision from ground truth annotations, particularly hard to source for
these two tasks. In this paper, we take an additional step toward holistic
scene understanding with monocular cameras by learning depth and motion
alongside with semantics, with supervision for the latter provided by a
pre-trained network distilling proxy ground truth images. We address the three
tasks jointly by a) a novel training protocol based on knowledge distillation
and self-supervision and b) a compact network architecture which enables
efficient scene understanding on both power hungry GPUs and low-power embedded
platforms. We thoroughly assess the performance of our framework and show that
it yields state-of-the-art results for monocular depth estimation, optical flow
and motion segmentation.
- Abstract(参考訳): 環境の完全な理解は自律システムにとって最重要である。
近年の研究では、深層ニューラルネットワークが、地上の真理アノテーションからの明確な監督なしに、モノキュラービデオから幾何学(深度)と運動(光の流れ)を学習できることが示されている。
本稿では,一眼レフカメラによる全体像の理解に向けて,セマンティクスとともに深度や動きを学習し,後者の監視を行う。
3つの課題を共同で解決し
イ 知識蒸留及び自己監督に基づく新規な訓練プロトコル
b)低消費電力GPUと低消費電力組み込みプラットフォームの両方で効率的なシーン理解を可能にする小型ネットワークアーキテクチャ。
我々は,本フレームワークの性能を徹底的に評価し,モノクロ深度推定,光流,動きのセグメンテーションの最先端結果が得られることを示す。
関連論文リスト
- Learning Optical Flow, Depth, and Scene Flow without Real-World Labels [33.586124995327225]
自己教師付き単眼深度推定により、ロボットは生のビデオストリームから3D知覚を学習できる。
本稿では,深度,光学的流れ,シーンフローを共同学習できる新しい手法であるDRAFTを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:52:12Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - A Deeper Look into DeepCap [96.67706102518238]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2021-11-20T11:34:33Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - DeepCap: Monocular Human Performance Capture Using Weak Supervision [106.50649929342576]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-03-18T16:39:56Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z) - Semantically-Guided Representation Learning for Self-Supervised
Monocular Depth [40.49380547487908]
本稿では,自己教師付き表現学習を指導するために,事前訓練型セマンティックセマンティック・セマンティクス・ネットワークを利用した新しいアーキテクチャを提案する。
本手法は,全画素,細粒度細部,意味カテゴリーごとの自己教師型単眼深度予測のための技術の現状を改善した。
論文 参考訳(メタデータ) (2020-02-27T18:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。