Fugu-MT 論文翻訳(概要): SPIdepth: Strengthened Pose Information for Self-supervised Monocular Depth Estimation

論文の概要: SPIdepth: Strengthened Pose Information for Self-supervised Monocular Depth Estimation

arxiv url: http://arxiv.org/abs/2404.12501v3
Date: Tue, 3 Sep 2024 10:12:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 18:40:27.709425
Title: SPIdepth: Strengthened Pose Information for Self-supervised Monocular Depth Estimation
Title（参考訳）: SPIdepth:自己教師型単眼深度推定のための強化ポーズ情報
Authors: Mykola Lavreniuk,
Abstract要約: SPIdepthは、ポーズネットワークの強化を優先し、深度推定を改善する手法である。 KITTI、Cityscapes、Make3Dといったベンチマークデータセットの実験結果は、SPIdepthの最先端のパフォーマンスを示している。本手法は, 自己教師型単分子深度推定において, 飛躍的な進歩を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised monocular depth estimation has garnered considerable attention for its applications in autonomous driving and robotics. While recent methods have made strides in leveraging techniques like the Self Query Layer (SQL) to infer depth from motion, they often overlook the potential of strengthening pose information. In this paper, we introduce SPIdepth, a novel approach that prioritizes enhancing the pose network for improved depth estimation. Building upon the foundation laid by SQL, SPIdepth emphasizes the importance of pose information in capturing fine-grained scene structures. By enhancing the pose network's capabilities, SPIdepth achieves remarkable advancements in scene understanding and depth estimation. Experimental results on benchmark datasets such as KITTI, Cityscapes, and Make3D showcase SPIdepth's state-of-the-art performance, surpassing previous methods by significant margins. Specifically, SPIdepth tops the self-supervised KITTI benchmark. Additionally, SPIdepth achieves the lowest AbsRel (0.029), SqRel (0.069), and RMSE (1.394) on KITTI, establishing new state-of-the-art results. On Cityscapes, SPIdepth shows improvements over SQLdepth of 21.7% in AbsRel, 36.8% in SqRel, and 16.5% in RMSE, even without using motion masks. On Make3D, SPIdepth in zero-shot outperforms all other models. Remarkably, SPIdepth achieves these results using only a single image for inference, surpassing even methods that utilize video sequences for inference, thus demonstrating its efficacy and efficiency in real-world applications. Our approach represents a significant leap forward in self-supervised monocular depth estimation, underscoring the importance of strengthening pose information for advancing scene understanding in real-world applications. The code and pre-trained models are publicly available at https://github.com/Lavreniuk/SPIdepth.
Abstract（参考訳）: 自律走行とロボット工学への応用について、自己監督された単眼深度推定が注目されている。最近の手法では、Self Query Layer(SQL)のようなテクニックを活用して動きから奥行きを推測する手法が採用されているが、多くの場合、ポーズ情報を強化する可能性を見落としている。本稿では、ポーズネットワークの強化を優先して深度推定を改善する新しいアプローチであるSPIdepthを紹介する。 SQLによって構築された基盤の上に構築されているSPIdepthは、きめ細かいシーン構造をキャプチャする上で、ポーズ情報の重要性を強調している。 SPIdepthは、ポーズネットワークの能力を高めることにより、シーン理解と深さ推定における顕著な進歩を実現する。 KITTI、Cityscapes、Make3Dといったベンチマークデータセットの実験結果は、SPIdepthの最先端のパフォーマンスを示し、従来の手法をかなり上回っている。具体的には、SPIdepthが自己監督型のKITTIベンチマークを上回っている。さらに、SPIdepthは、KITTI上のAbsRel (0.029)、SqRel (0.069)、RMSE (1.394) の最低値を獲得し、新しい最先端の結果を確立する。 Cityscapesでは、SPIdepthはAbsRelの21.7%、SqRelの36.8%、RMSEの16.5%のSQLdepthの改善を示している。 Make3Dでは、ゼロショットのSPIdepthは他のすべてのモデルより優れている。興味深いことに、SPIdepthは推論のために1つの画像のみを使用してこれらの結果を達成し、推論にビデオシーケンスを利用する方法さえ超え、実世界のアプリケーションにおいてその有効性と効率を実証する。本手法は, 実世界におけるシーン理解の促進を目的としたポーズ情報強化の重要性を強調し, 自己教師型単眼深度推定における飛躍的な進歩を示す。コードと事前訓練されたモデルはhttps://github.com/Lavreniuk/SPIdepth.comで公開されている。

関連論文リスト

AuxDepthNet: Real-Time Monocular 3D Object Detection with Depth-Sensitive Features [13.48200434855076]
AuxDepthNetはリアルタイムなモノクロ3Dオブジェクト検出のための効率的なフレームワークである。外部の深度マップや事前訓練された深度モデルへの依存をなくす。スコアは34.11%(簡単)、25.18%(モデレート)、21.90%(ハード)で、IoU閾値は0.7である。
論文参考訳（メタデータ） (2025-01-07T11:07:32Z)
PointHPS: Cascaded 3D Human Pose and Shape Estimation from Point Clouds [99.60575439926963]
本稿では,実環境で捉えた点雲から正確な3次元HPSを実現するための基本的フレームワークであるPointHPSを提案する。 PointHPSは、カスケードアーキテクチャを通じてポイント機能を反復的に洗練する。広範囲な実験により、ポイントHPSは強力な特徴抽出と処理方式を持ち、State-of-the-Art法より優れていることが示された。
論文参考訳（メタデータ） (2023-08-28T11:10:14Z)
Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative Convolution Network [80.19054069988559]
自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
論文参考訳（メタデータ） (2023-08-10T14:32:18Z)
Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文参考訳（メタデータ） (2023-04-14T07:14:08Z)
SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文参考訳（メタデータ） (2022-11-07T16:17:47Z)
Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文参考訳（メタデータ） (2022-08-26T13:04:01Z)
Iterative Corresponding Geometry: Fusing Region and Depth for Highly Efficient 3D Tracking of Textureless Objects [25.448657318818764]
ICGは領域と深度情報を融合させる新しい確率的トラッカーであり、物体形状のみを必要とする。本手法では, 対応線を配置し, ポーズを反復的に洗練する。 YCB-Video、OPT、Choiデータセットの実験は、テクスチャ化されたオブジェクトであっても、我々のアプローチが現在の技術よりも優れていることを示した。
論文参考訳（メタデータ） (2022-03-10T12:30:50Z)
Self-Supervised Monocular Depth Estimation with Internal Feature Fusion [12.874712571149725]
深度推定のための自己教師付き学習は、画像列の幾何学を用いて監督する。そこで本研究では,ダウンおよびアップサンプリングの手順で意味情報を利用することのできる,新しい深度推定ネットワークDIFFNetを提案する。
論文参考訳（メタデータ） (2021-10-18T17:31:11Z)
Geometry Uncertainty Projection Network for Monocular 3D Object Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文参考訳（メタデータ） (2021-07-29T06:59:07Z)
Selective Spatio-Temporal Aggregation Based Pose Refinement System: Towards Understanding Human Activities in Real-World Videos [8.571131862820833]
最先端のポーズ推定装置は、現実世界の無注釈ビデオにおいて、乱れと低解像度のために高品質な2Dまたは3Dポーズデータを取得するのに苦労している。本稿では,複数の専門家のポーズ推定器によって抽出されたキーポイント位置を洗練・平滑化するSST-Aという選択的時空間アグリゲーション機構を提案する。本研究では, Pose-Refinement System (SSTA-PRS) によって改良された骨格データが,既存の行動認識モデルの強化に有効であることを示す。
論文参考訳（メタデータ） (2020-11-10T19:19:51Z)
InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文参考訳（メタデータ） (2020-07-16T18:27:08Z)
Self-Supervised Joint Learning Framework of Depth Estimation via Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文参考訳（メタデータ） (2020-06-17T13:56:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。