論文の概要: DepthART: Monocular Depth Estimation as Autoregressive Refinement Task
- arxiv url: http://arxiv.org/abs/2409.15010v2
- Date: Fri, 25 Oct 2024 12:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:39:08.786603
- Title: DepthART: Monocular Depth Estimation as Autoregressive Refinement Task
- Title(参考訳): DepthART: Autoregressive Refinement Taskとしての単眼深度推定
- Authors: Bulat Gabdullin, Nina Konovalova, Nikolay Patakin, Dmitry Senushkin, Anton Konushin,
- Abstract要約: 本稿では,視覚的自己回帰変換器に基づく最初の自己回帰深度推定モデルを提案する。
我々の主な貢献は、Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法であるDepthARTである。
実験により,提案手法は,奥行き推定タスクにおいて,次のスケールの予測によって視覚自己回帰モデルを大幅に上回ることを示した。
- 参考スコア(独自算出の注目度): 2.3884184860468136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent success in discriminative approaches in monocular depth estimation its quality remains limited by training datasets. Generative approaches mitigate this issue by leveraging strong priors derived from training on internet-scale datasets. Recent studies have demonstrated that large text-to-image diffusion models achieve state-of-the-art results in depth estimation when fine-tuned on small depth datasets. Concurrently, autoregressive generative approaches, such as the Visual AutoRegressive modeling~(VAR), have shown promising results in conditioned image synthesis. Following the visual autoregressive modeling paradigm, we introduce the first autoregressive depth estimation model based on the visual autoregressive transformer. Our primary contribution is DepthART -- a novel training method formulated as Depth Autoregressive Refinement Task. Unlike the original VAR training procedure, which employs static targets, our method utilizes a dynamic target formulation that enables model self-refinement and incorporates multi-modal guidance during training. Specifically, we use model predictions as inputs instead of ground truth token maps during training, framing the objective as residual minimization. Our experiments demonstrate that the proposed training approach significantly outperforms visual autoregressive modeling via next-scale prediction in the depth estimation task. The Visual Autoregressive Transformer trained with our approach on Hypersim achieves superior results on a set of unseen benchmarks compared to other generative and discriminative baselines.
- Abstract(参考訳): 最近の単眼深度推定における差別的アプローチの成功にもかかわらず、その品質はトレーニングデータセットによって制限されている。
生成的アプローチは、インターネットスケールのデータセットのトレーニングから派生した強力な事前情報を活用することで、この問題を軽減する。
近年の研究では、小さな深度データセットで微調整した場合、大きなテキスト・画像拡散モデルにより、最先端の深度推定結果が得られることが示されている。
同時に、Visual Auto Regressive Modeling~(VAR)のような自己回帰生成アプローチは、条件付き画像合成において有望な結果を示している。
視覚自己回帰モデリングのパラダイムに従い、視覚自己回帰変換器に基づく最初の自己回帰深度推定モデルを導入する。
私たちの主な貢献は、Depth Autoregressive Refinement Taskという新しいトレーニング手法であるDepthARTです。
静的目標を用いた従来のVAR訓練とは違って,本手法では,モデル自己調整が可能で,トレーニング中にマルチモーダルガイダンスを組み込む動的目標定式化を利用する。
具体的には、トレーニング中に地上の真理トークンマップの代わりにモデル予測を入力として使用し、目標を残留最小化としてフレーミングする。
実験により,提案手法は,奥行き推定タスクにおいて,次のスケールの予測によって視覚自己回帰モデルを大幅に上回ることを示した。
The Visual Autoregressive Transformer training with our approach on Hypersim is achieved superior results on a set of unseen benchmarks than other generative and discriminative baselines。
関連論文リスト
- Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation [16.22199565010318]
本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。
その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-05T06:57:37Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Learn to Adapt for Monocular Depth Estimation [17.887575611570394]
逆深度推定タスクを提案し,メタラーニングのパイプラインでモデルを訓練する。
提案手法は,テスト手順中の数ステップのトレーニングの後,新しいデータセットに順応する。
論文 参考訳(メタデータ) (2022-03-26T06:49:22Z) - Improving Deep Learning Interpretability by Saliency Guided Training [36.782919916001624]
精度法はモデル予測において重要な入力特徴を強調するために広く用いられている。
既存の方法の多くは、修正された勾配関数のバックプロパゲーションを使用して、サリエンシマップを生成する。
本稿では,予測に使用する雑音勾配を低減するために,ニューラルネットワークに対するサリエンシ指導訓練手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:05:23Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Quantifying Model Uncertainty in Inverse Problems via Bayesian Deep
Gradient Descent [4.029853654012035]
逆問題における最近の進歩は、例えばディープニューラルネットワークのような強力なデータ駆動モデルを活用する。
ベイズニューラルネットワークによるモデル不確実性を定量化するための,スケーラブルでデータ駆動型,知識支援型計算フレームワークを開発した。
論文 参考訳(メタデータ) (2020-07-20T09:43:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。