論文の概要: FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2405.10885v3
- Date: Mon, 12 Aug 2024 01:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 21:12:59.794272
- Title: FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation
- Title(参考訳): FA-Depth:高速かつ高精度な自己監督型単眼深度推定に向けて
- Authors: Fei Wang, Jun Cheng,
- Abstract要約: 既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。
空間性に基づいたSmallDepthを最初に設計した。
第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。
第3に,固定されたSmallDepthの場合の各層が異なるコンテキスト情報を知覚する能力を向上させるために,ピラミッド損失を提案する。
第4に,SmallDepthの精度をさらに向上するため,提案した関数近似損失(APX)を応用した。
- 参考スコア(独自算出の注目度): 11.039105169475484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing methods often rely on complex models to predict scene depth with high accuracy, resulting in slow inference that is not conducive to deployment. To better balance precision and speed, we first designed SmallDepth based on sparsity. Second, to enhance the feature representation ability of SmallDepth during training under the condition of equal complexity during inference, we propose an equivalent transformation module(ETM). Third, to improve the ability of each layer in the case of a fixed SmallDepth to perceive different context information and improve the robustness of SmallDepth to the left-right direction and illumination changes, we propose pyramid loss. Fourth, to further improve the accuracy of SmallDepth, we utilized the proposed function approximation loss (APX) to transfer knowledge in the pretrained HQDecv2, obtained by optimizing the previous HQDec to address grid artifacts in some regions, to SmallDepth. Extensive experiments demonstrate that each proposed component improves the precision of SmallDepth without changing the complexity of SmallDepth during inference, and the developed approach achieves state-of-the-art results on KITTI at an inference speed of more than 500 frames per second and with approximately 2 M parameters. The code and models will be publicly available at https://github.com/fwucas/FA-Depth.
- Abstract(参考訳): 既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。
精度と速度のバランスを改善するために,スモールディープスをスモールディープスで設計した。
第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。
第3に,固定されたSmallDepthの場合,各層が異なるコンテキスト情報を知覚し,SmallDepthの左方向への強靭性と照明変化を改善するために,ピラミッドロスを提案する。
第4に、SmallDepthの精度をさらに向上するため、提案した関数近似損失(APX)を用いて、事前訓練されたHQDecv2の知識をSmallDepthに転送した。
大規模実験により,提案した各コンポーネントは,推定中のSmallDepthの複雑さを変化させることなく,SmallDepthの精度を向上することが示された。
コードとモデルはhttps://github.com/fwucas/FA-Depth.comで公開される。
関連論文リスト
- Regret Minimization via Saddle Point Optimization [29.78262192683203]
決定推定係数 (DEC) は, 構造的バンディットと強化学習における最悪の既往歴に対して, ほぼ下限および上限の値を与えることを示した。
推定・判定アルゴリズム(E2D)の任意の変種を導出する。
我々の定式化は有限モデルクラスと線形フィードバックモデルのための実用的なアルゴリズムにつながる。
論文 参考訳(メタデータ) (2024-03-15T15:09:13Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - $\texttt{NePhi}$: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration [21.36300248505756]
NePhiは変形を機能的に表現し、メモリ消費の設計空間において大きな柔軟性をもたらす。
我々は,NePhiが単一解像度の登録設定において,ボクセルに基づく表現の精度に一致することを示す。
マルチレゾリューション登録では,現在のSOTA学習ベース登録手法とインスタンス最適化の精度を一致させる。
論文 参考訳(メタデータ) (2023-09-13T21:21:50Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Monocular Depth Estimation Primed by Salient Point Detection and
Normalized Hessian Loss [43.950140695759764]
本稿では,単眼深度推定のための高精度で軽量なフレームワークを提案する。
深度方向のスケーリングとせん断に不変な正規化ヘッセン損失項を導入し,精度を著しく向上させることを示した。
提案手法は,NYU-Depth-v2 と KITTI の3.1-38.4 倍小さいモデルを用いて,ベースライン手法よりもパラメータ数が多い場合の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-08-25T07:51:09Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。