論文の概要: Scalable Autoregressive Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2411.11361v1
- Date: Mon, 18 Nov 2024 08:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:00.396246
- Title: Scalable Autoregressive Monocular Depth Estimation
- Title(参考訳): スケーラブルな自己回帰型単分子深さ推定
- Authors: Jinhong Wang, Jian Liu, Dongqi Tang, Weiqiang Wang, Wentong Li, Danny Chen, J intai Chen, Jian Wu,
- Abstract要約: 本稿では,効率よくスケーラブルな単分子深度推定器として,新しい自己回帰モデルを提案する。
2つのコア設計に基づく自己回帰予測パラダイムを用いて,単分子深度推定(MDE)タスクに取り組む。
これら2つの自己回帰目標を結合することにより、我々のDARは、KITTIとNYU Depth v2に明確なマージンで新しい最先端(SOTA)を確立する。
- 参考スコア(独自算出の注目度): 30.28682309197402
- License:
- Abstract: This paper proposes a new autoregressive model as an effective and scalable monocular depth estimator. Our idea is simple: We tackle the monocular depth estimation (MDE) task with an autoregressive prediction paradigm, based on two core designs. First, our depth autoregressive model (DAR) treats the depth map of different resolutions as a set of tokens, and conducts the low-to-high resolution autoregressive objective with a patch-wise casual mask. Second, our DAR recursively discretizes the entire depth range into more compact intervals, and attains the coarse-to-fine granularity autoregressive objective in an ordinal-regression manner. By coupling these two autoregressive objectives, our DAR establishes new state-of-the-art (SOTA) on KITTI and NYU Depth v2 by clear margins. Further, our scalable approach allows us to scale the model up to 2.0B and achieve the best RMSE of 1.799 on the KITTI dataset (5% improvement) compared to 1.896 by the current SOTA (Depth Anything). DAR further showcases zero-shot generalization ability on unseen datasets. These results suggest that DAR yields superior performance with an autoregressive prediction paradigm, providing a promising approach to equip modern autoregressive large models (e.g., GPT-4o) with depth estimation capabilities.
- Abstract(参考訳): 本稿では,効率よくスケーラブルな単分子深度推定器として,新しい自己回帰モデルを提案する。
我々は,2つのコア設計に基づく自己回帰予測パラダイムを用いて,単分子深度推定(MDE)タスクに取り組む。
まず、DAR(Deep Autoregressive Model)は、異なる解像度の深度マップをトークンの集合として扱い、パッチワイドカジュアルマスクを用いて低解像度から高解像度の自己回帰目標を実行する。
第二に、DARは全深度範囲をよりコンパクトな間隔に再帰的に離散化し、粗粒度自己回帰目標を正規回帰的に達成する。
これら2つの自己回帰目標を結合することにより、我々のDARは、KITTIとNYU Depth v2に明確なマージンで新しい最先端(SOTA)を確立する。
さらに、当社のスケーラブルなアプローチでは、モデルを2.0Bにスケールアップし、現在のSOTA(Depth Anything)の1.896に対して、KITTIデータセット(5%改善)で1.799のRMSEを達成することができます。
DARはさらに、目に見えないデータセットにゼロショットの一般化機能を示す。
これらの結果から, DARは自己回帰予測のパラダイムにより優れた性能を示し, 自己回帰的大モデル(例えば, GPT-4o)に深度推定機能を持たせるための有望なアプローチを提供する。
関連論文リスト
- DepthART: Monocular Depth Estimation as Autoregressive Refinement Task [2.3884184860468136]
本稿では,視覚的自己回帰変換器に基づく最初の自己回帰深度推定モデルを提案する。
我々の主な貢献は、Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法であるDepthARTである。
実験により,提案手法は,奥行き推定タスクにおいて,次のスケールの予測によって視覚自己回帰モデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2024-09-23T13:36:34Z) - EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation [4.477063987845632]
EDADepthは、追加のトレーニングデータを用いることなく単眼深度を推定する拡張データ拡張手法である。
我々は、テキスト埋め込みのより良い抽出にBEiT事前学習セマンティックセマンティックセマンティクスモデルを用いる。
本モデルでは,NYUv2 と KITTI のデータセット上での delta3 測定結果(SOTA)が得られた。
論文 参考訳(メタデータ) (2024-09-10T03:25:24Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデルアタック(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Modeling Object Dissimilarity for Deep Saliency Prediction [86.14710352178967]
本稿では,複数の物体間の差分をモデル化する検出誘導サリエンシー予測ネットワークについて紹介する。
私たちのアプローチは一般的であり、深いサリエンシー予測ネットワークから抽出された特徴とオブジェクトの不類似性を融合させることができます。
論文 参考訳(メタデータ) (2021-04-08T16:10:37Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。
resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文 参考訳(メタデータ) (2020-12-14T09:15:15Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。