Fugu-MT 論文翻訳(概要): LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices

論文の概要: LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices

arxiv url: http://arxiv.org/abs/2209.00961v1
Date: Fri, 2 Sep 2022 11:38:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-05 12:33:29.580914
Title: LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices
Title（参考訳）: LiteDepth: モバイルデバイスの高速かつ正確な深さ推定に活用
Authors: Zhenyu Li, Zehui Chen, Jialei Xu, Xianming Liu, Junjun Jiang
Abstract要約: Raspberry Pi 4では,小重量 (1.4MB) と短い推論時間 (27FPS) のエンドツーエンド学習モデルを開発した。モデル性能を向上させるため,R2 cropと呼ばれる簡易かつ効果的なデータ拡張戦略を提案する。特に、LiteDepthという名前のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challengeで2位にランクされ、Ssi-RMSEは0.311、RMSEは3.79、推論時間はRaspberry Pi 4で37$ms$テストされている。
参考スコア（独自算出の注目度）: 45.84356762066717
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monocular depth estimation is an essential task in the computer vision community. While tremendous successful methods have obtained excellent results, most of them are computationally expensive and not applicable for real-time on-device inference. In this paper, we aim to address more practical applications of monocular depth estimation, where the solution should consider not only the precision but also the inference time on mobile devices. To this end, we first develop an end-to-end learning-based model with a tiny weight size (1.4MB) and a short inference time (27FPS on Raspberry Pi 4). Then, we propose a simple yet effective data augmentation strategy, called R2 crop, to boost the model performance. Moreover, we observe that the simple lightweight model trained with only one single loss term will suffer from performance bottleneck. To alleviate this issue, we adopt multiple loss terms to provide sufficient constraints during the training stage. Furthermore, with a simple dynamic re-weight strategy, we can avoid the time-consuming hyper-parameter choice of loss terms. Finally, we adopt the structure-aware distillation to further improve the model performance. Notably, our solution named LiteDepth ranks 2nd in the MAI&AIM2022 Monocular Depth Estimation Challenge}, with a si-RMSE of 0.311, an RMSE of 3.79, and the inference time is 37$ms$ tested on the Raspberry Pi 4. Notably, we provide the fastest solution to the challenge. Codes and models will be released at \url{https://github.com/zhyever/LiteDepth}.
Abstract（参考訳）: 単眼深度推定はコンピュータビジョンコミュニティにおいて必須の課題である。驚くほど成功した手法は優れた結果を得たが、そのほとんどは計算コストが高く、リアルタイムのオンデバイス推論には適用できない。本稿では,単眼深度推定のより実践的な応用を目指しており,モバイルデバイス上での精度だけでなく,推測時間も考慮すべきである。そこで我々はまず,小重量(1.4MB)と短い推論時間(Raspberry Pi 4では27FPS)のエンドツーエンド学習モデルを開発した。そこで本研究では,R2 cropと呼ばれる簡易かつ効果的なデータ拡張戦略を提案し,モデル性能を向上する。さらに,単一損失項のみをトレーニングした単純な軽量モデルは,性能ボトルネックに悩まされることが観察された。この問題を軽減するため、トレーニング段階で十分な制約を与えるために、複数の損失項を採用する。さらに、単純な動的再重み付け戦略により、損失項の時間的消費超パラメータの選択を回避できる。最後に, 構造対応蒸留を採用し, モデル性能をさらに向上させる。特に、LiteDepthという名前のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challengeの2位にランクされ、Ssi-RMSEは0.311、RMSEは3.79、推論時間はRaspberry Pi 4で37$ms$テストされている。特に、この課題に対する最速のソリューションを提供しています。コードとモデルは \url{https://github.com/zhyever/LiteDepth} でリリースされる。

関連論文リスト

A lightweight model FDM-YOLO for small target improvement based on YOLOv8 [0.0]
小さいターゲットは、低いピクセル数、複雑な背景、様々な射撃角度のために検出が困難である。本稿では,小目標検出に焦点をあて,低計算制約下での物体検出手法について検討する。
論文参考訳（メタデータ） (2025-03-06T14:06:35Z)
Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses [1.086544864007391]
コストのかかるボリュームとプリプロセッシングに代わるハードウェアフレンドリーな代替品を開発する。オンラインステレオ補正(前処理)のために,修正位置符号化(RPE)を用いたホモグラヒマトリクス予測ネットワークを導入する。最適化されたコストボリュームを含むMultiHeadDepthでは、精度が11.8-30.3%向上し、レイテンシが22.9-25.2%削減された。最適化前処理(Homograhpy + RPE)を含むHomoDepthは、未修正画像を処理し、エンドツーエンドのレイテンシを44.5%削減する。
論文参考訳（メタデータ） (2024-11-15T07:43:45Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation [0.0]
本稿では,拡張エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。マルチスケールの特徴抽出を取り入れ、様々な物体の大きさと距離の深さ予測精度を高める。 KITTIデータセットによる実験結果から,本モデルでは0.019秒でかなり高速な推定時間を達成できた。
論文参考訳（メタデータ） (2024-10-15T13:46:19Z)
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-04-18T06:35:37Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文参考訳（メタデータ） (2023-03-07T19:12:31Z)
Pushing the Limits of Asynchronous Graph-based Object Detection with Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文参考訳（メタデータ） (2022-11-22T15:14:20Z)
BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object Detection for Autonomous Driving [6.389322215324224]
キーポイント,ボックス予測,方向予測を用いたオブジェクト中心検出のための単一統一モデルとして,新しいセマンティックセマンティックセマンティクスアーキテクチャを提案する。提案されたアーキテクチャは簡単に拡張でき、追加の計算なしで Road のようなセマンティックセグメンテーションクラスを含めることができる。モデルは、KITTIデータセット上のIoU=0.5の平均精度で2%の最小精度の劣化で、他のトップ精度モデルよりも5倍高速です。
論文参考訳（メタデータ） (2021-04-21T22:06:39Z)
Enabling Retrain-free Deep Neural Network Pruning using Surrogate Lagrangian Relaxation [2.691929135895278]
サロゲート・ラグランジアン・リラクゼーション(SLR)に基づく体系的な軽量化最適化手法を開発。 SLRは、同じ精度で最先端技術よりも高い圧縮率を達成する。再学習の予算が限られているため,本手法はモデル精度を迅速に回復する。
論文参考訳（メタデータ） (2020-12-18T07:17:30Z)
2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文参考訳（メタデータ） (2020-08-10T09:50:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。