論文の概要: LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile
Devices
- arxiv url: http://arxiv.org/abs/2209.00961v1
- Date: Fri, 2 Sep 2022 11:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:33:29.580914
- Title: LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile
Devices
- Title(参考訳): LiteDepth: モバイルデバイスの高速かつ正確な深さ推定に活用
- Authors: Zhenyu Li, Zehui Chen, Jialei Xu, Xianming Liu, Junjun Jiang
- Abstract要約: Raspberry Pi 4では,小重量 (1.4MB) と短い推論時間 (27FPS) のエンドツーエンド学習モデルを開発した。
モデル性能を向上させるため,R2 cropと呼ばれる簡易かつ効果的なデータ拡張戦略を提案する。
特に、LiteDepthという名前のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challengeで2位にランクされ、Ssi-RMSEは0.311、RMSEは3.79、推論時間はRaspberry Pi 4で37$ms$テストされている。
- 参考スコア(独自算出の注目度): 45.84356762066717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation is an essential task in the computer vision
community. While tremendous successful methods have obtained excellent results,
most of them are computationally expensive and not applicable for real-time
on-device inference. In this paper, we aim to address more practical
applications of monocular depth estimation, where the solution should consider
not only the precision but also the inference time on mobile devices. To this
end, we first develop an end-to-end learning-based model with a tiny weight
size (1.4MB) and a short inference time (27FPS on Raspberry Pi 4). Then, we
propose a simple yet effective data augmentation strategy, called R2 crop, to
boost the model performance. Moreover, we observe that the simple lightweight
model trained with only one single loss term will suffer from performance
bottleneck. To alleviate this issue, we adopt multiple loss terms to provide
sufficient constraints during the training stage. Furthermore, with a simple
dynamic re-weight strategy, we can avoid the time-consuming hyper-parameter
choice of loss terms. Finally, we adopt the structure-aware distillation to
further improve the model performance. Notably, our solution named LiteDepth
ranks 2nd in the MAI&AIM2022 Monocular Depth Estimation Challenge}, with a
si-RMSE of 0.311, an RMSE of 3.79, and the inference time is 37$ms$ tested on
the Raspberry Pi 4. Notably, we provide the fastest solution to the challenge.
Codes and models will be released at
\url{https://github.com/zhyever/LiteDepth}.
- Abstract(参考訳): 単眼深度推定はコンピュータビジョンコミュニティにおいて必須の課題である。
驚くほど成功した手法は優れた結果を得たが、そのほとんどは計算コストが高く、リアルタイムのオンデバイス推論には適用できない。
本稿では,単眼深度推定のより実践的な応用を目指しており,モバイルデバイス上での精度だけでなく,推測時間も考慮すべきである。
そこで我々はまず,小重量(1.4MB)と短い推論時間(Raspberry Pi 4では27FPS)のエンドツーエンド学習モデルを開発した。
そこで本研究では,R2 cropと呼ばれる簡易かつ効果的なデータ拡張戦略を提案し,モデル性能を向上する。
さらに,単一損失項のみをトレーニングした単純な軽量モデルは,性能ボトルネックに悩まされることが観察された。
この問題を軽減するため、トレーニング段階で十分な制約を与えるために、複数の損失項を採用する。
さらに、単純な動的再重み付け戦略により、損失項の時間的消費超パラメータの選択を回避できる。
最後に, 構造対応蒸留を採用し, モデル性能をさらに向上させる。
特に、LiteDepthという名前のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challengeの2位にランクされ、Ssi-RMSEは0.311、RMSEは3.79、推論時間はRaspberry Pi 4で37$ms$テストされている。
特に、この課題に対する最速のソリューションを提供しています。
コードとモデルは \url{https://github.com/zhyever/LiteDepth} でリリースされる。
関連論文リスト
- Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses [1.086544864007391]
コストのかかるボリュームとプリプロセッシングに代わるハードウェアフレンドリーな代替品を開発する。
オンラインステレオ補正(前処理)のために,修正位置符号化(RPE)を用いたホモグラヒマトリクス予測ネットワークを導入する。
最適化されたコストボリュームを含むMultiHeadDepthでは、精度が11.8-30.3%向上し、レイテンシが22.9-25.2%削減された。
最適化前処理(Homograhpy + RPE)を含むHomoDepthは、未修正画像を処理し、エンドツーエンドのレイテンシを44.5%削減する。
論文 参考訳(メタデータ) (2024-11-15T07:43:45Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object
Detection for Autonomous Driving [6.389322215324224]
キーポイント,ボックス予測,方向予測を用いたオブジェクト中心検出のための単一統一モデルとして,新しいセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案されたアーキテクチャは簡単に拡張でき、追加の計算なしで Road のようなセマンティックセグメンテーションクラスを含めることができる。
モデルは、KITTIデータセット上のIoU=0.5の平均精度で2%の最小精度の劣化で、他のトップ精度モデルよりも5倍高速です。
論文 参考訳(メタデータ) (2021-04-21T22:06:39Z) - Enabling Retrain-free Deep Neural Network Pruning using Surrogate
Lagrangian Relaxation [2.691929135895278]
サロゲート・ラグランジアン・リラクゼーション(SLR)に基づく体系的な軽量化最適化手法を開発。
SLRは、同じ精度で最先端技術よりも高い圧縮率を達成する。
再学習の予算が限られているため,本手法はモデル精度を迅速に回復する。
論文 参考訳(メタデータ) (2020-12-18T07:17:30Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。