論文の概要: EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2409.06183v1
- Date: Tue, 10 Sep 2024 03:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:10:55.575140
- Title: EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation
- Title(参考訳): EDADepth: 単眼深度推定のための拡張データ拡張
- Authors: Nischal Khanal, Shivanand Venkanna Sheshappanavar,
- Abstract要約: EDADepthは、追加のトレーニングデータを用いることなく単眼深度を推定する拡張データ拡張手法である。
我々は、テキスト埋め込みのより良い抽出にBEiT事前学習セマンティックセマンティックセマンティクスモデルを用いる。
本モデルでは,NYUv2 と KITTI のデータセット上での delta3 測定結果(SOTA)が得られた。
- 参考スコア(独自算出の注目度): 4.477063987845632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to their text-to-image synthesis feature, diffusion models have recently seen a rise in visual perception tasks, such as depth estimation. The lack of good-quality datasets makes the extraction of a fine-grain semantic context challenging for the diffusion models. The semantic context with fewer details further worsens the process of creating effective text embeddings that will be used as input for diffusion models. In this paper, we propose a novel EDADepth, an enhanced data augmentation method to estimate monocular depth without using additional training data. We use Swin2SR, a super-resolution model, to enhance the quality of input images. We employ the BEiT pre-trained semantic segmentation model for better extraction of text embeddings. We introduce BLIP-2 tokenizer to generate tokens from these text embeddings. The novelty of our approach is the introduction of Swin2SR, the BEiT model, and the BLIP-2 tokenizer in the diffusion-based pipeline for the monocular depth estimation. Our model achieves state-of-the-art results (SOTA) on the {\delta}3 metric on NYUv2 and KITTI datasets. It also achieves results comparable to those of the SOTA models in the RMSE and REL metrics. Finally, we also show improvements in the visualization of the estimated depth compared to the SOTA diffusion-based monocular depth estimation models. Code: https://github.com/edadepthmde/EDADepth_ICMLA.
- Abstract(参考訳): テキストと画像の合成機能により、拡散モデルは近年、深度推定などの視覚的知覚タスクが増加している。
高品質なデータセットがないため、拡散モデルでは微粒なセマンティックコンテキストの抽出が困難である。
詳細の少ないセマンティックコンテキストは、拡散モデルの入力として使用される効果的なテキスト埋め込みを作成するプロセスをさらに悪化させる。
本稿では,新たなトレーニングデータを用いることなく,単眼深度を推定する拡張データ拡張手法であるEDADepthを提案する。
超解像モデルであるSwin2SRを用いて、入力画像の品質を向上させる。
我々は、テキスト埋め込みのより良い抽出にBEiT事前訓練セマンティックセマンティックセマンティクスモデルを用いる。
これらのテキスト埋め込みからトークンを生成するためにBLIP-2トークン化器を導入する。
本手法の新規性は,単分子深度推定のための拡散型パイプラインにおけるSwin2SR,BEiTモデル,BLIP-2トークン化器の導入である。
本モデルでは,NYUv2 と KITTI のデータセット上での delta}3 測定値の最先端結果 (SOTA) が得られた。
また、RMSEとRELのメトリクスにおけるSOTAモデルと同等の結果が得られる。
最後に,SOTA拡散に基づく単分子深度推定モデルと比較して,推定深度の可視化の改善を示す。
コード:https://github.com/edadepthmde/EDADepth_ICMLA。
関連論文リスト
- MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。