Fugu-MT 論文翻訳(概要): FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation

論文の概要: FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation

arxiv url: http://arxiv.org/abs/2405.10885v3
Date: Mon, 12 Aug 2024 01:24:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 21:12:59.794272
Title: FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation
Title（参考訳）: FA-Depth:高速かつ高精度な自己監督型単眼深度推定に向けて
Authors: Fei Wang, Jun Cheng,
Abstract要約: 既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。空間性に基づいたSmallDepthを最初に設計した。第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。第3に,固定されたSmallDepthの場合の各層が異なるコンテキスト情報を知覚する能力を向上させるために,ピラミッド損失を提案する。第4に,SmallDepthの精度をさらに向上するため,提案した関数近似損失(APX)を応用した。
参考スコア（独自算出の注目度）: 11.039105169475484
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most existing methods often rely on complex models to predict scene depth with high accuracy, resulting in slow inference that is not conducive to deployment. To better balance precision and speed, we first designed SmallDepth based on sparsity. Second, to enhance the feature representation ability of SmallDepth during training under the condition of equal complexity during inference, we propose an equivalent transformation module(ETM). Third, to improve the ability of each layer in the case of a fixed SmallDepth to perceive different context information and improve the robustness of SmallDepth to the left-right direction and illumination changes, we propose pyramid loss. Fourth, to further improve the accuracy of SmallDepth, we utilized the proposed function approximation loss (APX) to transfer knowledge in the pretrained HQDecv2, obtained by optimizing the previous HQDec to address grid artifacts in some regions, to SmallDepth. Extensive experiments demonstrate that each proposed component improves the precision of SmallDepth without changing the complexity of SmallDepth during inference, and the developed approach achieves state-of-the-art results on KITTI at an inference speed of more than 500 frames per second and with approximately 2 M parameters. The code and models will be publicly available at https://github.com/fwucas/FA-Depth.
Abstract（参考訳）: 既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。精度と速度のバランスを改善するために,スモールディープスをスモールディープスで設計した。第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。第3に,固定されたSmallDepthの場合,各層が異なるコンテキスト情報を知覚し,SmallDepthの左方向への強靭性と照明変化を改善するために,ピラミッドロスを提案する。第4に、SmallDepthの精度をさらに向上するため、提案した関数近似損失(APX)を用いて、事前訓練されたHQDecv2の知識をSmallDepthに転送した。大規模実験により,提案した各コンポーネントは,推定中のSmallDepthの複雑さを変化させることなく,SmallDepthの精度を向上することが示された。コードとモデルはhttps://github.com/fwucas/FA-Depth.comで公開される。

関連論文リスト

Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。 PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。 3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文参考訳（メタデータ） (2026-02-02T07:21:15Z)
Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文参考訳（メタデータ） (2025-08-06T16:16:58Z)
QuickSplat: Fast 3D Surface Reconstruction via Learned Gaussian Initialization [69.50126552763157]
表面再構成はコンピュータビジョンとグラフィックスの基本であり、3Dモデリング、混合現実、ロボット工学などの応用を可能にする。レンダリングに基づく既存のアプローチは有望な結果を得るが、シーンごとに最適化されるため、テクスチャレスな領域をモデル化するのに苦労する可能性がある。大規模屋内シーンの2次元ガウススプラッティング最適化のための高密度初期化を生成するために,データ駆動の先行処理を学習するQuickSplatを紹介する。
論文参考訳（メタデータ） (2025-05-08T18:43:26Z)
Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文参考訳（メタデータ） (2025-05-07T19:37:20Z)
UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler [62.06785782635153]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthV2を提案する。 UniDepthV2は、追加情報なしで、入力画像から推論時にメートル法3Dポイントを直接予測する。我々のモデルは擬似球面出力表現を利用し、カメラと深度表現をアンタングル化する。
論文参考訳（メタデータ） (2025-02-27T14:03:15Z)
PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation [38.71875790942604]
PRV2はUnrealStereo4Kの精度と速度の両方で最先端の深さ推定手法より優れている。また、CityScape、ScanNet++、KITTIといった現実世界のデータセットでは、奥行き境界線が改善されている。
論文参考訳（メタデータ） (2025-01-02T07:41:27Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement [37.78880948551719]
D-FINEは、優れた位置決め精度を実現する強力なリアルタイム物体検出器である。 D-FINEは、FDRとGlobal Optimal Localization Self-Distillation(GO-LSD)の2つの重要なコンポーネントから構成される。 Objects365で事前訓練された場合、D-FINE-L / Xは57.1% / 59.3%APとなり、既存のリアルタイム検出器を全て上回っている。
論文参考訳（メタデータ） (2024-10-17T17:57:01Z)
Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation [0.0]
本稿では,拡張エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。マルチスケールの特徴抽出を取り入れ、様々な物体の大きさと距離の深さ予測精度を高める。 KITTIデータセットによる実験結果から,本モデルでは0.019秒でかなり高速な推定時間を達成できた。
論文参考訳（メタデータ） (2024-10-15T13:46:19Z)
Regret Minimization via Saddle Point Optimization [29.78262192683203]
決定推定係数 (DEC) は, 構造的バンディットと強化学習における最悪の既往歴に対して, ほぼ下限および上限の値を与えることを示した。推定・判定アルゴリズム(E2D)の任意の変種を導出する。我々の定式化は有限モデルクラスと線形フィードバックモデルのための実用的なアルゴリズムにつながる。
論文参考訳（メタデータ） (2024-03-15T15:09:13Z)
Q-SLAM: Quadric Representations for Monocular SLAM [85.82697759049388]
四角形のレンズを通して体積表現を再現する。我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
論文参考訳（メタデータ） (2024-03-12T23:27:30Z)
$\texttt{NePhi}$: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration [16.388101540950295]
NePhiは変形を機能的に表現し、メモリ消費の設計空間において大きな柔軟性をもたらす。我々は,NePhiが単一解像度の登録設定において,ボクセルに基づく表現の精度に一致することを示す。マルチレゾリューション登録では,現在のSOTA学習ベース登録手法とインスタンス最適化の精度を一致させる。
論文参考訳（メタデータ） (2023-09-13T21:21:50Z)
Rethinking Lightweight Salient Object Detection via Network Depth-Width Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文参考訳（メタデータ） (2023-01-17T03:43:25Z)
Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文参考訳（メタデータ） (2021-07-08T15:19:36Z)
Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文参考訳（メタデータ） (2020-12-25T14:58:35Z)
Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。しかし、その推測時間は一般的に540p画像の秒数で遅い。本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文参考訳（メタデータ） (2020-12-01T23:58:16Z)
Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文参考訳（メタデータ） (2020-08-19T14:26:47Z)
Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。 LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文参考訳（メタデータ） (2020-04-06T11:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。