論文の概要: EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2409.06183v2
- Date: Thu, 3 Oct 2024 00:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 22:16:23.242379
- Title: EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation
- Title(参考訳): EDADepth: 単眼深度推定のための拡張データ拡張
- Authors: Nischal Khanal, Shivanand Venkanna Sheshappanavar,
- Abstract要約: EDADepthは、追加のトレーニングデータを用いることなく単眼深度を推定する拡張データ拡張手法である。
我々は、テキスト埋め込みのより良い抽出にBEiT事前学習セマンティックセマンティックセマンティクスモデルを用いる。
本モデルでは,NYUv2 と KITTI のデータセット上での delta3 測定結果(SOTA)が得られた。
- 参考スコア(独自算出の注目度): 4.477063987845632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to their text-to-image synthesis feature, diffusion models have recently seen a rise in visual perception tasks, such as depth estimation. The lack of good-quality datasets makes the extraction of a fine-grain semantic context challenging for the diffusion models. The semantic context with fewer details further worsens the process of creating effective text embeddings that will be used as input for diffusion models. In this paper, we propose a novel EDADepth, an enhanced data augmentation method to estimate monocular depth without using additional training data. We use Swin2SR, a super-resolution model, to enhance the quality of input images. We employ the BEiT pre-trained semantic segmentation model for better extraction of text embeddings. We use BLIP-2 tokenizer to generate tokens from these text embeddings. The novelty of our approach is the introduction of Swin2SR, the BEiT model, and the BLIP-2 tokenizer in the diffusion-based pipeline for the monocular depth estimation. Our model achieves state-of-the-art results (SOTA) on the delta3 metric on NYUv2 and KITTI datasets. It also achieves results comparable to those of the SOTA models in the RMSE and REL metrics. Finally, we also show improvements in the visualization of the estimated depth compared to the SOTA diffusion-based monocular depth estimation models. Code: https://github.com/edadepthmde/EDADepth_ICMLA.
- Abstract(参考訳): テキストと画像の合成機能により、拡散モデルは近年、深度推定などの視覚的知覚タスクが増加している。
高品質なデータセットがないため、拡散モデルでは微粒なセマンティックコンテキストの抽出が困難である。
詳細の少ないセマンティックコンテキストは、拡散モデルの入力として使用される効果的なテキスト埋め込みを作成するプロセスをさらに悪化させる。
本稿では,新たなトレーニングデータを用いることなく,単眼深度を推定する拡張データ拡張手法であるEDADepthを提案する。
超解像モデルであるSwin2SRを用いて、入力画像の品質を向上させる。
我々は、テキスト埋め込みのより良い抽出にBEiT事前訓練セマンティックセマンティックセマンティクスモデルを用いる。
我々はBLIP-2トークン化器を用いてこれらのテキスト埋め込みからトークンを生成する。
本手法の新規性は,単分子深度推定のための拡散型パイプラインにおけるSwin2SR,BEiTモデル,BLIP-2トークン化器の導入である。
本モデルでは,NYUv2 と KITTI のデータセット上での delta3 測定結果(SOTA)が得られた。
また、RMSEとRELのメトリクスにおけるSOTAモデルと同等の結果が得られる。
最後に,SOTA拡散に基づく単分子深度推定モデルと比較して,推定深度の可視化の改善を示す。
コード:https://github.com/edadepthmde/EDADepth_ICMLA。
関連論文リスト
- DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Monocular Depth Estimation using Diffusion Models [39.27361388836347]
トレーニングデータにおけるノイズや不完全な深度マップに起因する問題に対処するイノベーションを導入する。
教師付き訓練におけるデータの可用性の限界に対処するために,自己教師付き画像-画像間翻訳タスクの事前学習を利用する。
我々のDepthGenモデルは、屋内のNYUデータセット上で、および屋外のKITTIデータセット上でのSOTA結果に近いSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-02-28T18:08:21Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。