論文の概要: STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model
- arxiv url: http://arxiv.org/abs/2303.01196v1
- Date: Thu, 2 Mar 2023 12:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:37:37.084103
- Title: STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model
- Title(参考訳): STDepthFormer:自己教師型トランスモデルによるビデオの時空間深さ予測
- Authors: Houssem Boulahbal, Adrian Voicila, Andrew Comport
- Abstract要約: ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a self-supervised model that simultaneously predicts a
sequence of future frames from video-input with a novel spatial-temporal
attention (ST) network is proposed. The ST transformer network allows
constraining both temporal consistency across future frames whilst constraining
consistency across spatial objects in the image at different scales. This was
not the case in prior works for depth prediction, which focused on predicting a
single frame as output. The proposed model leverages prior scene knowledge such
as object shape and texture similar to single-image depth inference methods,
whilst also constraining the motion and geometry from a sequence of input
images. Apart from the transformer architecture, one of the main contributions
with respect to prior works lies in the objective function that enforces
spatio-temporal consistency across a sequence of output frames rather than a
single output frame. As will be shown, this results in more accurate and robust
depth sequence forecasting. The model achieves highly accurate depth
forecasting results that outperform existing baselines on the KITTI benchmark.
Extensive ablation studies were performed to assess the effectiveness of the
proposed techniques. One remarkable result of the proposed model is that it is
implicitly capable of forecasting the motion of objects in the scene, rather
than requiring complex models involving multi-object detection, segmentation
and tracking.
- Abstract(参考訳): 本稿では,新しい空間的注意(ST)ネットワークを用いたビデオ入力から,将来的なフレーム列を同時に予測する自己教師型モデルを提案する。
ST変換器ネットワークは、画像内の空間オブジェクト間で異なるスケールで一貫性を制約しながら、将来のフレーム間で両方の時間的一貫性を制約することができる。
これは、単一のフレームを出力として予測することに焦点を当てた深度予測のための以前の作業ではそうではなかった。
提案モデルでは,物体の形状やテクスチャなどの事前の知識を,入力画像のシーケンスからの動きや形状を制約しながら,単像深度推定法と同様に活用する。
トランスフォーマーアーキテクチャ以外にも、先行研究に関する主な貢献の1つは、単一の出力フレームではなく、出力フレームのシーケンス間の時空間的一貫性を強制する目的関数にある。
示すように、この結果はより正確で堅牢な深さ列予測をもたらす。
モデルは、KITTIベンチマークの既存のベースラインを上回る高精度な深度予測結果を得る。
提案手法の有効性を評価するため,広範なアブレーション実験を行った。
提案モデルによる顕著な結果のひとつは,複数物体の検出,セグメンテーション,追跡を含む複雑なモデルを必要とするのではなく,シーン内の物体の動きを暗黙的に予測できることである。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Forecasting of depth and ego-motion with transformers and
self-supervision [0.0]
本稿では,深度とエゴ運動のエンドツーエンド自己監督予測の問題に対処する。
原画像の列が与えられた場合、教師付き自己測光損失を用いて、幾何と自我運動の両方を予測することを目的とする。
アーキテクチャは、畳み込みモジュールとトランスフォーマーモジュールの両方を使って設計されている。
論文 参考訳(メタデータ) (2022-06-15T10:14:11Z) - Keypoint-Based Category-Level Object Pose Tracking from an RGB Sequence
with Uncertainty Estimation [29.06824085794294]
本稿では,既知のカテゴリ内のオブジェクトのインスタンスを同時に検出・追跡するカテゴリレベルの6-DoFポーズ推定アルゴリズムを提案する。
提案手法は, モノクロビデオRGBのフレームと現在のフレームと, 前フレームからの予測を入力として, 境界立方体とポーズの予測を行う。
本フレームワークは, 従来の不確実性を考慮し, その結果, 単一フレーム法よりも高精度な予測が可能となった。
論文 参考訳(メタデータ) (2022-05-23T05:20:22Z) - Instance-aware multi-object self-supervision for monocular depth
prediction [0.0]
本稿では,エンド・ツー・エンド・エンド・フォトメトリック・ロスをトレーニングした自己教師付き単眼画像から深度予測フレームワークを提案する。
セルフスーパービジョンは、オブジェクトインスタンスを含む深度とシーンの動きを使用して、映像をビデオシーケンスにわたってワープすることで実行される。
論文 参考訳(メタデータ) (2022-03-02T00:59:25Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。