論文の概要: Detaching and Boosting: Dual Engine for Scale-Invariant Self-Supervised
Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2210.03952v1
- Date: Sat, 8 Oct 2022 07:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:21:26.773093
- Title: Detaching and Boosting: Dual Engine for Scale-Invariant Self-Supervised
Monocular Depth Estimation
- Title(参考訳): デタチングとブースティング:スケール不変自己教師付き単眼深度推定のためのデュアルエンジン
- Authors: Peizhe Jiang and Wei Yang and Xiaoqing Ye and Xiao Tan and Meng Wu
- Abstract要約: 本稿では,自己教師型MDEに対して,SSF(Scale-sensitive features)を分離したスケール不変な手法を提案する。
具体的には、SSFをデタッチするために、カメラズーム処理を模倣して、単純だが効果的なデータ拡張を提案する。
提案手法は,0.097から0.090 w.r.tの絶対相対誤差に対して,新たなステート・オブ・ザ・アート性能を実現する。
- 参考スコア(独自算出の注目度): 18.741426143836538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation (MDE) in the self-supervised scenario has emerged
as a promising method as it refrains from the requirement of ground truth
depth. Despite continuous efforts, MDE is still sensitive to scale changes
especially when all the training samples are from one single camera. Meanwhile,
it deteriorates further since camera movement results in heavy coupling between
the predicted depth and the scale change. In this paper, we present a
scale-invariant approach for self-supervised MDE, in which scale-sensitive
features (SSFs) are detached away while scale-invariant features (SIFs) are
boosted further. To be specific, a simple but effective data augmentation by
imitating the camera zooming process is proposed to detach SSFs, making the
model robust to scale changes. Besides, a dynamic cross-attention module is
designed to boost SIFs by fusing multi-scale cross-attention features
adaptively. Extensive experiments on the KITTI dataset demonstrate that the
detaching and boosting strategies are mutually complementary in MDE and our
approach achieves new State-of-The-Art performance against existing works from
0.097 to 0.090 w.r.t absolute relative error. The code will be made public
soon.
- Abstract(参考訳): 自己監督シナリオにおける単眼深度推定 (MDE) は, 地中真理深度を考慮しない, 有望な手法として現れた。
継続的な努力にもかかわらず、MDEは、特にすべてのトレーニングサンプルが単一のカメラからのものである場合、変更のスケールに敏感である。
一方,カメラの動きは,推定深度とスケール変化の重結合を生じさせるため,さらに劣化する。
本稿では,自己教師付きmdeに対して,ssf(scale-invariant features)を分離し,さらにsif(scale-invariant features)を促進させるスケール不変性アプローチを提案する。
具体的には、SSFをデタッチするために、カメラズーム処理を模倣して、単純だが効果的なデータ拡張を提案する。
さらに、動的クロスアテンションモジュールは、マルチスケールのクロスアテンション機能を適応的に融合することにより、SIFを強化するように設計されている。
KITTIデータセットの広範囲な実験により, MDE では脱着戦略とブースティング戦略が相互に相補的であることが示され,本手法は既存の 0.097 から 0.090 w.r.t の絶対相対誤差に対して新たな State-of-The-Art 性能を実現する。
コードは近々公開される予定だ。
関連論文リスト
- Deep Autoencoder with SVD-Like Convergence and Flat Minima [1.0742675209112622]
我々は,コルモゴロフ障壁を克服するために,学習可能な重み付きハイブリッドオートエンコーダを提案する。
トレーニングされたモデルは、他のモデルに比べて何千倍もシャープさが小さいことを実証的に見出した。
論文 参考訳(メタデータ) (2024-10-23T00:04:26Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Gradient-Guided Modality Decoupling for Missing-Modality Robustness [24.95911972867697]
我々は,モダリティの優位性を監視し,抑制するために,新しい指標,勾配を導入する。
本稿では, 支配的モダリティへの依存を分離するために, GMD法を提案する。
さらに,モーダル不完全データを柔軟に処理するために,パラメータ効率のよい動的共有フレームワークを設計する。
論文 参考訳(メタデータ) (2024-02-26T05:50:43Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Regularity Learning via Explicit Distribution Modeling for Skeletal
Video Anomaly Detection [43.004613173363566]
確率的視点からポーズ動作表現を提供するために,新しい動き埋め込み (ME) を提案する。
タスク固有の空間時間変換器(STT)を自己教師型ポーズシーケンス再構築のために配置する。
MoPRLは、いくつかの挑戦的なデータセットに対して平均4.7%のAUCの改善によって最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-07T11:52:25Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - VMLoc: Variational Fusion For Learning-Based Multimodal Camera
Localization [46.607930208613574]
本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。
バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
論文 参考訳(メタデータ) (2020-03-12T14:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。