論文の概要: ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2403.18807v4
- Date: Wed, 17 Apr 2024 14:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:31:46.774874
- Title: ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation
- Title(参考訳): ECoDepth:単眼深度推定のための拡散モデルの効率的な条件付け
- Authors: Suraj Patni, Aradhye Agarwal, Chetan Arora,
- Abstract要約: パララックスの手がかりがない場合、学習に基づく単一画像深度推定モデルは、画像のシェーディングと文脈的手がかりに大きく依存する。
このようなモデルを、キャプチャが難しい大規模で多様なデータセットでトレーニングする必要がある。
CLIPのようなトレーニング済みの基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善される。
- 参考スコア(独自算出の注目度): 5.179738379203527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the absence of parallax cues, a learning-based single image depth estimation (SIDE) model relies heavily on shading and contextual cues in the image. While this simplicity is attractive, it is necessary to train such models on large and varied datasets, which are difficult to capture. It has been shown that using embeddings from pre-trained foundational models, such as CLIP, improves zero shot transfer in several applications. Taking inspiration from this, in our paper we explore the use of global image priors generated from a pre-trained ViT model to provide more detailed contextual information. We argue that the embedding vector from a ViT model, pre-trained on a large dataset, captures greater relevant information for SIDE than the usual route of generating pseudo image captions, followed by CLIP based text embeddings. Based on this idea, we propose a new SIDE model using a diffusion backbone which is conditioned on ViT embeddings. Our proposed design establishes a new state-of-the-art (SOTA) for SIDE on NYUv2 dataset, achieving Abs Rel error of 0.059 (14% improvement) compared to 0.069 by the current SOTA (VPD). And on KITTI dataset, achieving Sq Rel error of 0.139 (2% improvement) compared to 0.142 by the current SOTA (GEDepth). For zero-shot transfer with a model trained on NYUv2, we report mean relative improvement of (20%, 23%, 81%, 25%) over NeWCRFs on (Sun-RGBD, iBims1, DIODE, HyperSim) datasets, compared to (16%, 18%, 45%, 9%) by ZoeDepth. The project page is available at https://ecodepth-iitd.github.io
- Abstract(参考訳): パララックス・キューが存在しない場合、学習に基づく単一画像深度推定(SIDE)モデルは、画像のシェーディングと文脈的キューに大きく依存する。
この単純さは魅力的だが、大きなデータセットやさまざまなデータセットでそのようなモデルをトレーニングする必要がある。
CLIPのような事前訓練された基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善されることが示されている。
このことから着想を得て、本稿では、事前学習したViTモデルから生成されたグローバル画像の事前利用について検討し、より詳細な文脈情報を提供する。
大規模なデータセット上で事前学習されたViTモデルからの埋め込みベクトルは、疑似画像キャプションを生成する通常の経路よりもSIDEの関連情報をキャプチャし、次にCLIPベースのテキスト埋め込みを行う。
そこで本研究では,ViT埋め込みを前提とした拡散バックボーンを用いた新しいSIDEモデルを提案する。
提案手法は,現在のSOTA(VPD)の0.069に対して,Abs Relの誤差が0.059(14%改善)であることから,NYUv2データセット上でのSIDEの最先端(SOTA)を確立した。
そして、KITTIデータセットでは、現在のSOTA(GEDepth)の0.142に比べてSq Rel誤差が0.139(2%改善)である。
また,NYUv2でトレーニングしたモデルを用いたゼロショット転送では,ZoeDepthによる16%,18%,45%,9%に比べてNeWCRFよりも20%,23%,81%,25%の相対的な改善(Sun-RGBD,iBims1,DIODE,HyperSim)が見られた。
プロジェクトのページはhttps://ecodepth-iitd.github.ioで公開されている。
関連論文リスト
- Tiny models from tiny data: Textual and null-text inversion for few-shot distillation [11.80626524879555]
ほとんどショット画像分類では、ごく少数のトレーニング例を使って画像の分類を行う。
近年の視覚基礎モデルでは、数発の転送能力は優れているが、推論では大きくて遅い。
本稿では,テキスト逆変換の多様性とNull-text逆変換の特異性を組み合わせた新しい拡散モデル逆変換法(TINT)を提案する。
論文 参考訳(メタデータ) (2024-06-05T11:01:42Z) - Dataset Distillation in Large Data Era [31.758821805424393]
従来の224$times$224の入力解像度で、フルイメージNet-1K/21Kなどの大規模データセットを蒸留する方法を示す。
提案手法は,ImageNet-1K/21Kにおいて,現在の最先端技術よりも4%以上精度が高いことを示す。
論文 参考訳(メタデータ) (2023-11-30T18:59:56Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - RemoteCLIP: A Vision Language Foundation Model for Remote Sensing [13.814076157988225]
遠隔センシングのための視覚言語基盤モデルであるRemoteCLIPを提案する。
リッチなセマンティクスと、シームレスなダウンストリームアプリケーションのためのアライメントされたテキスト埋め込みによって、堅牢なビジュアル機能を学ぶことを目指している。
リモートCLIPは、ゼロショット画像分類、線形探索、$textitk$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。
論文 参考訳(メタデータ) (2023-06-19T15:46:41Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - NoiSER: Noise is All You Need for Enhancing Low-Light Images Without
Task-Related Data [103.04999391668753]
タスク関連のトレーニングデータなしで、低照度画像を拡張できることが示される。
技術的には、アンダーラインノイズと呼ばれる新しい、魔法的で、効果的で効率的な方法を提案する。
我々のNoiSERは、量的および視覚的な結果の観点から、現在のタスク関連データに基づくLLIEモデルと非常に競合しています。
論文 参考訳(メタデータ) (2022-11-09T06:18:18Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。