論文の概要: Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2301.05871v2
- Date: Mon, 20 Mar 2023 09:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:43:03.699415
- Title: Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes
- Title(参考訳): Dyna-DepthFormer:動的シーンにおける自己監督深度推定のためのマルチフレームトランス
- Authors: Songchun Zhang and Chunhui Zhao
- Abstract要約: シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
- 参考スコア(独自算出の注目度): 19.810725397641406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised methods have showed promising results on depth estimation
task. However, previous methods estimate the target depth map and camera
ego-motion simultaneously, underusing multi-frame correlation information and
ignoring the motion of dynamic objects. In this paper, we propose a novel
Dyna-Depthformer framework, which predicts scene depth and 3D motion field
jointly and aggregates multi-frame information with transformer. Our
contributions are two-fold. First, we leverage multi-view correlation through a
series of self- and cross-attention layers in order to obtain enhanced depth
feature representation. Specifically, we use the perspective transformation to
acquire the initial reference point, and use deformable attention to reduce the
computational cost. Second, we propose a warping-based Motion Network to
estimate the motion field of dynamic objects without using semantic prior. To
improve the motion field predictions, we propose an iterative optimization
strategy, together with a sparsity-regularized loss. The entire pipeline
achieves end-to-end self-supervised training by constructing a minimum
reprojection loss. Extensive experiments on the KITTI and Cityscapes benchmarks
demonstrate the effectiveness of our method and show that our method
outperforms state-of-the-art algorithms.
- Abstract(参考訳): 自己監督手法は深度推定タスクにおいて有望な結果を示した。
しかし, 対象深度マップとカメラエゴモーションを同時に推定し, マルチフレーム相関情報を活用し, 動的物体の動きを無視した。
本稿では,シーン深度と3次元運動場を共同で予測し,マルチフレーム情報をトランスで集約するDyna-Depthformerフレームワークを提案する。
私たちの貢献は2倍です。
まず,深度特徴表現の強化を実現するために,複数層にまたがって多視点相関を利用する。
具体的には,初期基準点の獲得に視点変換を用い,変形可能な注意力を用いて計算コストを削減する。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
運動場予測を改善するために,空間的規則化損失とともに反復最適化戦略を提案する。
パイプライン全体は、最小のリジェクション損失を構築することで、エンドツーエンドのセルフ教師付きトレーニングを実現する。
KITTIとCityscapesのベンチマーク実験により,提案手法の有効性を実証し,提案手法が最先端のアルゴリズムより優れていることを示す。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Motion-aware 3D Gaussian Splatting for Efficient Dynamic Scene Reconstruction [89.53963284958037]
動的シーン再構築のための新しい動き認識拡張フレームワークを提案する。
具体的には,まず3次元ガウス運動と画素レベルの流れの対応性を確立する。
より厳密な最適化問題を示す先行的な変形に基づくパラダイムに対して,過渡対応変形補助モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:46:26Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。