論文の概要: Positional Information is All You Need: A Novel Pipeline for
Self-Supervised SVDE from Videos
- arxiv url: http://arxiv.org/abs/2205.08851v1
- Date: Wed, 18 May 2022 10:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 13:23:16.484489
- Title: Positional Information is All You Need: A Novel Pipeline for
Self-Supervised SVDE from Videos
- Title(参考訳): 位置情報は必要なものすべて:ビデオから自己監督されたSVDEのための新しいパイプライン
- Authors: Juan Luis Gonzalez Bello, Jaeho Moon, and Munchurl Kim
- Abstract要約: ビデオからSVDE(Single View Depth Estimation)を学習するために,画素位置情報を活用できることを示す。
深度離散化に最適な画素毎の量子化曲線を割り当てる新しい適応量子化方式を提案する。
これらの特徴により、パイプラインは移動物体に対して堅牢であり、高解像度の画像に対してよく一般化する。
- 参考スコア(独自算出の注目度): 34.20004243207091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, much attention has been drawn to learning the underlying 3D
structures of a scene from monocular videos in a fully self-supervised fashion.
One of the most challenging aspects of this task is handling the independently
moving objects as they break the rigid-scene assumption. For the first time, we
show that pixel positional information can be exploited to learn SVDE (Single
View Depth Estimation) from videos. Our proposed moving object (MO) masks,
which are induced by shifted positional information (SPI) and referred to as
`SPIMO' masks, are very robust and consistently remove the independently moving
objects in the scenes, allowing for better learning of SVDE from videos.
Additionally, we introduce a new adaptive quantization scheme that assigns the
best per-pixel quantization curve for our depth discretization. Finally, we
employ existing boosting techniques in a new way to further self-supervise the
depth of the moving objects. With these features, our pipeline is robust
against moving objects and generalizes well to high-resolution images, even
when trained with small patches, yielding state-of-the-art (SOTA) results with
almost 8.5x fewer parameters than the previous works that learn from videos. We
present extensive experiments on KITTI and CityScapes that show the
effectiveness of our method.
- Abstract(参考訳): 近年,単眼映像からシーンの基盤となる3d構造を,完全に監視された方法で学ぶことに注目が集まっている。
このタスクの最も難しい側面の1つは、厳密な前提を破る際、独立して動くオブジェクトを扱うことである。
今回,映像からsvde(single view depth estimation)を学習するために,画素位置情報を活用できることを初めて示す。
移動物体(MO)マスクは、移動位置情報(SPI)によって誘導され、「SPIMO」マスクと呼ばれるもので、非常に堅牢であり、映像からSVDEをよりよく学習することができる。
さらに,深度離散化に最適な画素毎の量子化曲線を割り当てる適応量子化方式を導入する。
最後に, 移動物体の深さを自己監視する新しい手法として, 既存のブースティング技術を用いる。
これらの特徴により、パイプラインは移動対象に対して堅牢であり、たとえ小さなパッチでトレーニングされたとしても、高解像度の画像に対して優れた一般化を行うことができ、ビデオから学習する以前の研究よりも8.5倍少ないパラメータでSOTA(State-of-the-art)結果が得られる。
提案手法の有効性を示すKITTIとCityScapesについて広範な実験を行った。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos [23.64091569954785]
スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
LiDARから得られたスパースディープ信号を使用することで、SAVi++は現実世界のOpenデータセットで、創発的なオブジェクトセグメンテーションとビデオからのトラッキングを学習することができる。
論文 参考訳(メタデータ) (2022-06-15T18:57:07Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。