論文の概要: DepthART: Monocular Depth Estimation as Autoregressive Refinement Task
- arxiv url: http://arxiv.org/abs/2409.15010v3
- Date: Mon, 30 Jun 2025 10:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:38.450604
- Title: DepthART: Monocular Depth Estimation as Autoregressive Refinement Task
- Title(参考訳): DepthART: Autoregressive Refinement Taskとしての単眼深度推定
- Authors: Bulat Gabdullin, Nina Konovalova, Nikolay Patakin, Dmitry Senushkin, Anton Konushin,
- Abstract要約: DepthART - Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法を紹介する。
モデル自身の予測を入力として利用することにより、目標を残留最小化とし、トレーニングと推論手順の相違を効果的に軽減する。
提案手法を用いてHypersimデータセットをトレーニングすると、既存の生成的および識別的ベースラインと比較して、複数の未確認ベンチマークで優れた結果が得られる。
- 参考スコア(独自算出の注目度): 2.3884184860468136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation has seen significant advances through discriminative approaches, yet their performance remains constrained by the limitations of training datasets. While generative approaches have addressed this challenge by leveraging priors from internet-scale datasets, with recent studies showing state-of-the-art results using fine-tuned text-to-image diffusion models, there is still room for improvement. Notably, autoregressive generative approaches, particularly Visual AutoRegressive modeling, have demonstrated superior results compared to diffusion models in conditioned image synthesis, while offering faster inference times. In this work, we apply Visual Autoregressive Transformer (VAR) to the monocular depth estimation problem. However, the conventional GPT-2-style training procedure (teacher forcing) inherited by VAR yields suboptimal results for depth estimation. To address this limitation, we introduce DepthART - a novel training method formulated as a Depth Autoregressive Refinement Task. Unlike traditional VAR training with static inputs and targets, our method implements a dynamic target formulation based on model outputs, enabling self-refinement. By utilizing the model's own predictions as inputs instead of ground truth token maps during training, we frame the objective as residual minimization, effectively reducing the discrepancy between training and inference procedures. Our experimental results demonstrate that the proposed training approach significantly enhances the performance of VAR in depth estimation tasks. When trained on Hypersim dataset using our approach, the model achieves superior results across multiple unseen benchmarks compared to existing generative and discriminative baselines.
- Abstract(参考訳): 単眼深度推定は差別的なアプローチを通じて大きな進歩を遂げてきたが、その性能はトレーニングデータセットの制限によって制限されている。
生成的アプローチは、インターネットスケールのデータセットからの先行データを活用することでこの問題に対処してきたが、最近の研究では、微調整されたテキスト-画像拡散モデルを用いた最先端の結果を示しているが、改善の余地はまだ残っている。
特に、自己回帰的生成アプローチ、特にビジュアル自己回帰モデリングは、条件付き画像合成における拡散モデルよりも高速な推論時間を提供しながら、優れた結果を示した。
本研究では,視覚自己回帰変換器(VAR)を単眼深度推定問題に適用する。
しかしながら、従来のGPT-2スタイルのトレーニング手順(教師強制)は、VARによって継承され、深さ推定のための準最適結果が得られる。
この制限に対処するため,Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法であるDepthARTを紹介した。
静的な入力とターゲットを持つ従来のVARトレーニングとは異なり,本手法はモデル出力に基づく動的ターゲット定式化を実装し,自己補充を可能にする。
モデル自体の予測を、トレーニング中の真理トークンマップの代わりに入力として活用することにより、目標を残留最小化とし、トレーニングと推論手順の相違を効果的に軽減する。
実験の結果,提案手法は深度推定タスクにおけるVARの性能を大幅に向上させることが示された。
提案手法を用いてHypersimデータセットをトレーニングすると、既存の生成的および識別的ベースラインと比較して、複数の未確認ベンチマークで優れた結果が得られる。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Self Distillation via Iterative Constructive Perturbations [0.2748831616311481]
本稿では,循環最適化手法を用いてモデルとその入力データを並列に最適化し,より優れたトレーニングを行う新しいフレームワークを提案する。
モデルのパラメータをデータとデータに交互に変更することにより、本手法は適合性と一般化のギャップを効果的に解決する。
論文 参考訳(メタデータ) (2025-05-20T13:15:27Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image
Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文 参考訳(メタデータ) (2024-09-26T00:19:42Z) - DepthFM: Fast Monocular Depth Estimation with Flow Matching [22.206355073676082]
現在の識別的深さ推定法は、しばしばぼやけた人工物を生成するが、生成的アプローチはノイズ・ツー・ディープ・トランスポートの曲率によるサンプリングが遅い。
本手法は,画像と深度分布間の直接輸送として深度推定をフレーミングすることで,これらの課題に対処する。
提案手法は, 複雑な自然シーンの標準ベンチマークにおいて, サンプリング効率を向上し, 学習に最小限の合成データしか必要とせず, 競争力のあるゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-03-20T17:51:53Z) - Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation [16.22199565010318]
本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。
その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-05T06:57:37Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Learn to Adapt for Monocular Depth Estimation [17.887575611570394]
逆深度推定タスクを提案し,メタラーニングのパイプラインでモデルを訓練する。
提案手法は,テスト手順中の数ステップのトレーニングの後,新しいデータセットに順応する。
論文 参考訳(メタデータ) (2022-03-26T06:49:22Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Improving Deep Learning Interpretability by Saliency Guided Training [36.782919916001624]
精度法はモデル予測において重要な入力特徴を強調するために広く用いられている。
既存の方法の多くは、修正された勾配関数のバックプロパゲーションを使用して、サリエンシマップを生成する。
本稿では,予測に使用する雑音勾配を低減するために,ニューラルネットワークに対するサリエンシ指導訓練手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:05:23Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Quantifying Model Uncertainty in Inverse Problems via Bayesian Deep
Gradient Descent [4.029853654012035]
逆問題における最近の進歩は、例えばディープニューラルネットワークのような強力なデータ駆動モデルを活用する。
ベイズニューラルネットワークによるモデル不確実性を定量化するための,スケーラブルでデータ駆動型,知識支援型計算フレームワークを開発した。
論文 参考訳(メタデータ) (2020-07-20T09:43:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。