論文の概要: Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2301.05871v1
- Date: Sat, 14 Jan 2023 09:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 18:24:54.675519
- Title: Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes
- Title(参考訳): Dyna-DepthFormer:動的シーンにおける自己監督深度推定のためのマルチフレームトランス
- Authors: Songchun Zhang and Chunhui Zhao
- Abstract要約: シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
- 参考スコア(独自算出の注目度): 19.810725397641406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised methods have showed promising results on depth estimation
task. However, previous methods estimate the target depth map and camera
ego-motion simultaneously, underusing multi-frame correlation information and
ignoring the motion of dynamic objects. In this paper, we propose a novel
Dyna-Depthformer framework, which predicts scene depth and 3D motion field
jointly and aggregates multi-frame information with transformer. Our
contributions are two-fold. First, we leverage multi-view correlation through a
series of self- and cross-attention layers in order to obtain enhanced depth
feature representation. Specifically, we use the perspective transformation to
acquire the initial reference point, and use deformable attention to reduce the
computational cost. Second, we propose a warping-based Motion Network to
estimate the motion field of dynamic objects without using semantic prior. To
improve the motion field predictions, we propose an iterative optimization
strategy, together with a sparsity-regularized loss. The entire pipeline
achieves end-to-end self-supervised training by constructing a minimum
reprojection loss. Extensive experiments on the KITTI and Cityscapes benchmarks
demonstrate the effectiveness of our method and show that our method
outperforms state-of-the-art algorithms.
- Abstract(参考訳): 自己監督手法は深度推定タスクにおいて有望な結果を示した。
しかし, 対象深度マップとカメラエゴモーションを同時に推定し, マルチフレーム相関情報を活用し, 動的物体の動きを無視した。
本稿では,シーン深度と3次元運動場を共同で予測し,マルチフレーム情報をトランスで集約するDyna-Depthformerフレームワークを提案する。
私たちの貢献は2倍です。
まず,深度特徴表現の強化を実現するために,複数層にまたがって多視点相関を利用する。
具体的には,初期基準点の獲得に視点変換を用い,変形可能な注意力を用いて計算コストを削減する。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
運動場予測を改善するために,空間的規則化損失とともに反復最適化戦略を提案する。
パイプライン全体は、最小のリジェクション損失を構築することで、エンドツーエンドのセルフ教師付きトレーニングを実現する。
KITTIとCityscapesのベンチマーク実験により,提案手法の有効性を実証し,提案手法が最先端のアルゴリズムより優れていることを示す。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural
Radiance Fields [80.35807140179736]
自己監督型マルチカメラ占有率予測のためのOccNeRF法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成する。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - CDN-MEDAL: Two-stage Density and Difference Approximation Framework for
Motion Analysis [3.337126420148156]
本稿では,2つの畳み込みニューラルネットワークを用いた2段階変化検出手法を提案する。
筆者らの2段階フレームワークは, 約3.5Kのパラメータを含むが, 複雑な動きパターンに対する迅速な収束は維持されている。
論文 参考訳(メタデータ) (2021-06-07T16:39:42Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z) - Any Motion Detector: Learning Class-agnostic Scene Dynamics from a
Sequence of LiDAR Point Clouds [4.640835690336654]
動き検出と動きパラメータ推定のための時間的文脈アグリゲーションの新しいリアルタイム手法を提案する。
本稿では,固有点雲列の固有オドメトリック変換に匹敵する性能で,リアルタイムな推論を実現するためのエゴモーション補償層を提案する。
論文 参考訳(メタデータ) (2020-04-24T10:40:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。