論文の概要: FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2405.10885v2
- Date: Wed, 7 Aug 2024 09:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 15:25:48.693000
- Title: FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation
- Title(参考訳): FA-Depth:高速かつ高精度な自己監督型単眼深度推定に向けて
- Authors: Fei Wang, Jun Cheng,
- Abstract要約: 既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。
空間性に基づいたSmallDepthを最初に設計した。
第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。
第3に,固定されたSmallDepthの場合の各層が異なるコンテキスト情報を知覚する能力を向上させるために,ピラミッド損失を提案する。
第4に,SmallDepthの精度をさらに向上するため,提案した関数近似損失(APX)を応用した。
- 参考スコア(独自算出の注目度): 11.039105169475484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing methods often rely on complex models to predict scene depth with high accuracy, resulting in slow inference that is not conducive to deployment. To better balance precision and speed, we first designed SmallDepth based on sparsity. Second, to enhance the feature representation ability of SmallDepth during training under the condition of equal complexity during inference, we propose an equivalent transformation module(ETM). Third, to improve the ability of each layer in the case of a fixed SmallDepth to perceive different context information and improve the robustness of SmallDepth to the left-right direction and illumination changes, we propose pyramid loss. Fourth, to further improve the accuracy of SmallDepth, we utilized the proposed function approximation loss (APX) to transfer knowledge in the pretrained HQDecv2, obtained by optimizing the previous HQDec to address grid artifacts in some regions, to SmallDepth. Extensive experiments demonstrate that each proposed component improves the precision of SmallDepth without changing the complexity of SmallDepth during inference, and the developed approach achieves state-of-the-art results on KITTI at an inference speed of more than 500 frames per second and with approximately 2 M parameters. The code and models will be publicly available at https://github.com/fwucas/FA-Depth.
- Abstract(参考訳): 既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。
精度と速度のバランスを改善するために,スモールディープスをスモールディープスで設計した。
第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。
第3に,固定されたSmallDepthの場合,各層が異なるコンテキスト情報を知覚し,SmallDepthの左方向への強靭性と照明変化を改善するために,ピラミッドロスを提案する。
第4に、SmallDepthの精度をさらに向上するため、提案した関数近似損失(APX)を用いて、事前訓練されたHQDecv2の知識をSmallDepthに転送した。
大規模実験により,提案した各コンポーネントは,推定中のSmallDepthの複雑さを変化させることなく,SmallDepthの精度を向上することが示された。
コードとモデルはhttps://github.com/fwucas/FA-Depth.comで公開される。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement [37.78880948551719]
D-FINEは、優れた位置決め精度を実現する強力なリアルタイム物体検出器である。
D-FINEは、FDRとGlobal Optimal Localization Self-Distillation(GO-LSD)の2つの重要なコンポーネントから構成される。
Objects365で事前訓練された場合、D-FINE-L / Xは57.1% / 59.3%APとなり、既存のリアルタイム検出器を全て上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:57:01Z) - Regret Minimization via Saddle Point Optimization [29.78262192683203]
決定推定係数 (DEC) は, 構造的バンディットと強化学習における最悪の既往歴に対して, ほぼ下限および上限の値を与えることを示した。
推定・判定アルゴリズム(E2D)の任意の変種を導出する。
我々の定式化は有限モデルクラスと線形フィードバックモデルのための実用的なアルゴリズムにつながる。
論文 参考訳(メタデータ) (2024-03-15T15:09:13Z) - Q-SLAM: Quadric Representations for Monocular SLAM [85.82697759049388]
四角形のレンズを通して体積表現を再現する。
我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。
本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
論文 参考訳(メタデータ) (2024-03-12T23:27:30Z) - $\texttt{NePhi}$: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration [16.388101540950295]
NePhiは変形を機能的に表現し、メモリ消費の設計空間において大きな柔軟性をもたらす。
我々は,NePhiが単一解像度の登録設定において,ボクセルに基づく表現の精度に一致することを示す。
マルチレゾリューション登録では,現在のSOTA学習ベース登録手法とインスタンス最適化の精度を一致させる。
論文 参考訳(メタデータ) (2023-09-13T21:21:50Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。