論文の概要: Real-time Monocular Depth Estimation with Sparse Supervision on Mobile
- arxiv url: http://arxiv.org/abs/2105.12053v1
- Date: Tue, 25 May 2021 16:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:03:42.467901
- Title: Real-time Monocular Depth Estimation with Sparse Supervision on Mobile
- Title(参考訳): モバイルにおけるスパース監督による実時間単眼深度推定
- Authors: Mehmet Kerim Yucel, Valia Dimaridou, Anastasios Drosou, Albert
Sa\`a-Garriga
- Abstract要約: 近年、モバイルデバイスの普及に伴い、正確かつモバイルフレンドリーな深度モデルの重要性が高まっている。
キーとなる設計選択と研究によって、既存のアーキテクチャでさえ非常に競争力のあるパフォーマンスを達成できることが示されています。
モデルのバージョンは1Mパラメータを持つDIWで0.1208W、モバイルGPUで44FPSに達する。
- 参考スコア(独自算出の注目度): 2.5425323889482336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular (relative or metric) depth estimation is a critical task for
various applications, such as autonomous vehicles, augmented reality and image
editing. In recent years, with the increasing availability of mobile devices,
accurate and mobile-friendly depth models have gained importance. Increasingly
accurate models typically require more computational resources, which inhibits
the use of such models on mobile devices. The mobile use case is arguably the
most unrestricted one, which requires highly accurate yet mobile-friendly
architectures. Therefore, we try to answer the following question: How can we
improve a model without adding further complexity (i.e. parameters)? Towards
this end, we systematically explore the design space of a relative depth
estimation model from various dimensions and we show, with key design choices
and ablation studies, even an existing architecture can reach highly
competitive performance to the state of the art, with a fraction of the
complexity. Our study spans an in-depth backbone model selection process,
knowledge distillation, intermediate predictions, model pruning and loss
rebalancing. We show that our model, using only DIW as the supervisory dataset,
achieves 0.1156 WHDR on DIW with 2.6M parameters and reaches 37 FPS on a mobile
GPU, without pruning or hardware-specific optimization. A pruned version of our
model achieves 0.1208 WHDR on DIW with 1M parameters and reaches 44 FPS on a
mobile GPU.
- Abstract(参考訳): 単眼的(相対的または計量的)深さ推定は、自動運転車、拡張現実、画像編集など、様々なアプリケーションにとって重要なタスクである。
近年,モバイルデバイスの普及に伴い,精度とモバイルフレンドリーな奥行きモデルの重要性が高まっている。
精度の増すモデルは通常、より多くの計算資源を必要とし、モバイルデバイスでのそのようなモデルの使用を阻害する。
モバイルのユースケースは、おそらく最も制限のないもので、高精度でモバイルフレンドリーなアーキテクチャを必要とする。
したがって、私たちは以下の質問に答えようとしている: さらなる複雑さ(つまり)を追加することなく、どのようにモデルを改善することができるか。
パラメータ)?
この目的に向けて,我々は,様々な次元から相対的深さ推定モデルの設計空間を体系的に探究し,重要な設計選択とアブレーションの研究により,既存のアーキテクチャでさえも,その複雑さのほんの一部で,最先端に高い競争力を発揮できることを示す。
本研究は, 詳細なバックボーンモデル選択プロセス, 知識蒸留, 中間予測, モデルプルーニング, 損失再バランスにまたがる。
我々は,DIWのみをスーパーバイザーデータセットとし,2.6Mパラメータを持つDIW上で0.1156WHDRを達成し,プルーニングやハードウェア固有の最適化を行なわずに,モバイルGPU上で37FPSに達することを示す。
1Mパラメータを持つDIWでは0.1208WHDRを実現し,モバイルGPUでは44FPSに達する。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - More precise edge detections [0.0]
エッジ検出 (ED) はコンピュータビジョンの基本的なタスクである。
現在のモデルは相変わらず不満足な精度に悩まされている。
より正確な予測のためのモデルアーキテクチャはまだ調査が必要である。
論文 参考訳(メタデータ) (2024-07-29T13:24:55Z) - Mobile Foundation Model as Firmware [13.225478051091763]
sysはモバイルOSとハードウェアの協調管理アプローチである。
公開されているLarge Language Models (LLM) のキュレートされた選択と、動的データフローの促進を両立させる。
タスクの85%で精度を同等にし、ストレージとメモリのスケーラビリティを改善し、十分な推論速度を提供する。
論文 参考訳(メタデータ) (2023-08-28T07:21:26Z) - Lite-Mono: A Lightweight CNN and Transformer Architecture for
Self-Supervised Monocular Depth Estimation [9.967643080731683]
CNNとトランスフォーマーの効率的な組み合わせについて検討し,Lite-Monoのハイブリッドアーキテクチャを設計する。
完全なモデルはMonodepth2よりも精度が高く、トレーニング可能なパラメータが約80%少ない。
論文 参考訳(メタデータ) (2022-11-23T18:43:41Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z) - Tidying Deep Saliency Prediction Architectures [6.613005108411055]
本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。
我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-10T19:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。