論文の概要: Instance-aware multi-object self-supervision for monocular depth
prediction
- arxiv url: http://arxiv.org/abs/2203.00809v1
- Date: Wed, 2 Mar 2022 00:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 07:22:08.822776
- Title: Instance-aware multi-object self-supervision for monocular depth
prediction
- Title(参考訳): 単眼深度予測のためのインスタンスアウェアマルチオブジェクト自己スーパービジョン
- Authors: Houssem eddine Boulahbal, Adrian Voicila, Andrew Comport
- Abstract要約: 本稿では,エンド・ツー・エンド・エンド・フォトメトリック・ロスをトレーニングした自己教師付き単眼画像から深度予測フレームワークを提案する。
セルフスーパービジョンは、オブジェクトインスタンスを含む深度とシーンの動きを使用して、映像をビデオシーケンスにわたってワープすることで実行される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a self-supervised monocular image-to-depth prediction
framework that is trained with an end-to-end photometric loss that handles not
only 6-DOF camera motion but also 6-DOF moving object instances.
Self-supervision is performed by warping the images across a video sequence
using depth and scene motion including object instances. One novelty of the
proposed method is the use of a multi-head attention of the transformer network
that matches moving objects across time and models their interaction and
dynamics. This enables accurate and robust pose estimation for each object
instance. Most image-to-depth predication frameworks make the assumption of
rigid scenes, which largely degrades their performance with respect to dynamic
objects. Only a few SOTA papers have accounted for dynamic objects. The
proposed method is shown to largely outperform these methods on standard
benchmarks and the impact of the dynamic motion on these benchmarks is exposed.
Furthermore, the proposed image-to-depth prediction framework is also shown to
outperform SOTA video-to-depth prediction frameworks.
- Abstract(参考訳): 本稿では,自己教師付き単眼画像対深度予測フレームワークを提案する。このフレームワークは6自由度カメラモーションだけでなく6自由度移動オブジェクトインスタンスも処理するエンドツーエンドフォトメトリック損失を訓練する。
セルフスーパービジョンは、オブジェクトインスタンスを含む深度とシーンの動きを使用して、映像をビデオシーケンスにわたってワープすることで実行される。
提案手法の目新しさは,移動物体を時間にわたってマッチングし,その相互作用とダイナミクスをモデル化するトランスフォーマーネットワークの多頭部注意の利用である。
これにより、各オブジェクトインスタンスに対する正確なロバストなポーズ推定が可能になる。
ほとんどの画像から奥行きの述語フレームワークは、厳密なシーンを前提としており、動的オブジェクトに対してパフォーマンスを劣化させる。
動的対象を考慮に入れているSOTA論文はごくわずかである。
提案手法は標準ベンチマークにおいてこれらの手法よりも優れており,これらのベンチマークに対する動的運動の影響が明らかにされている。
さらに, 提案手法は, sotaビデオ対深度予測フレームワークよりも優れていることを示す。
関連論文リスト
- MonoPP: Metric-Scaled Self-Supervised Monocular Depth Estimation by Planar-Parallax Geometry in Automotive Applications [2.5249064981269287]
本稿では,モノクロ映像データとカメラの装着位置のみを必要とする,自己監督型メカニカルスケールMDEモデルを提案する。
提案手法は, ドライビングベンチマークKITTIを用いて, 計量スケール深度予測のための最先端結果を得た。
特に、挑戦的なCityscapesデータセットのために、自己教師付きメトリックスケールの深度予測を作成するための最初の方法の1つである。
論文 参考訳(メタデータ) (2024-11-29T14:06:58Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Object-Centric Video Prediction via Decoupling of Object Dynamics and
Interactions [27.112210225969733]
本稿では,映像系列の構造を抽出し,オブジェクトのダイナミックスやインタラクションを視覚的観察からモデル化する,オブジェクト中心のビデオ予測タスクのための新しいフレームワークを提案する。
そこで本研究では,時間的ダイナミクスとオブジェクトの相互作用の処理を分離した2つのオブジェクト中心ビデオ予測器(OCVP)トランスフォーマモジュールを提案する。
実験では、OCVP予測器を用いたオブジェクト中心の予測フレームワークが、2つの異なるデータセットにおけるオブジェクト非依存のビデオ予測モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T08:29:26Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。