論文の概要: EVP: Enhanced Visual Perception using Inverse Multi-Attentive Feature
Refinement and Regularized Image-Text Alignment
- arxiv url: http://arxiv.org/abs/2312.08548v1
- Date: Wed, 13 Dec 2023 22:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:31:42.674110
- Title: EVP: Enhanced Visual Perception using Inverse Multi-Attentive Feature
Refinement and Regularized Image-Text Alignment
- Title(参考訳): EVP:逆多重補正と正規化画像テキストアライメントを用いた視覚知覚の強化
- Authors: Mykola Lavreniuk, Shariq Farooq Bhat, Matthias M\"uller, Peter Wonka
- Abstract要約: この研究は、コンピュータビジョンタスクにStable Diffusionネットワークを使用する方法を舗装した以前のVPDに基づいている。
Inverse Multi-Attentive Feature Refinement (IMAFR) モジュールを開発した。
第2に、安定拡散バックボーンの特徴抽出を改善するための新しい画像テキストアライメントモジュールを提案する。
- 参考スコア(独自算出の注目度): 40.328294121805456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents the network architecture EVP (Enhanced Visual Perception).
EVP builds on the previous work VPD which paved the way to use the Stable
Diffusion network for computer vision tasks. We propose two major enhancements.
First, we develop the Inverse Multi-Attentive Feature Refinement (IMAFR) module
which enhances feature learning capabilities by aggregating spatial information
from higher pyramid levels. Second, we propose a novel image-text alignment
module for improved feature extraction of the Stable Diffusion backbone. The
resulting architecture is suitable for a wide variety of tasks and we
demonstrate its performance in the context of single-image depth estimation
with a specialized decoder using classification-based bins and referring
segmentation with an off-the-shelf decoder. Comprehensive experiments conducted
on established datasets show that EVP achieves state-of-the-art results in
single-image depth estimation for indoor (NYU Depth v2, 11.8% RMSE improvement
over VPD) and outdoor (KITTI) environments, as well as referring segmentation
(RefCOCO, 2.53 IoU improvement over ReLA). The code and pre-trained models are
publicly available at https://github.com/Lavreniuk/EVP.
- Abstract(参考訳): この研究は、ネットワークアーキテクチャ EVP (Enhanced Visual Perception) を示す。
EVPは、コンピュータビジョンタスクにStable Diffusionネットワークを使用する方法を舗装した以前のVPDに基づいて構築されている。
我々は2つの大きな拡張を提案する。
まず,高いピラミッドレベルから空間情報を集約することで,機能学習能力を高める逆多目的機能改良(imafr)モジュールを開発した。
第2に,安定拡散バックボーンの特徴抽出を改善するための新しい画像テキストアライメントモジュールを提案する。
得られたアーキテクチャは多種多様なタスクに適しており、分類ベースビンを用いた専用デコーダと既製のデコーダを用いたセグメンテーションによる単一画像深度推定の文脈でその性能を示す。
確立されたデータセットで実施された総合的な実験により、EVPは屋内(NYU Depth v2, 11.8% RMSE v2, 11.8% RMSE v2, 11.8%)と屋外(KITTI)の環境に対して、またセグメンテーション(RefCOCO, 2.53 IoU improvement over ReLA)を参照して、単一画像深度推定の最先端結果を達成することが示された。
コードと事前トレーニングされたモデルはhttps://github.com/lavreniuk/evpで公開されている。
関連論文リスト
- Balancing Shared and Task-Specific Representations: A Hybrid Approach to Depth-Aware Video Panoptic Segmentation [0.0]
マスクトランスフォーマーのパラダイムに基づくDVPS(Deep-Aware Video Panoptic segmentation)の新たなアプローチであるMultiformerを提案する。
本手法は, セグメント化, 分子深度推定, オブジェクト追跡サブタスク間で共有されるオブジェクト表現を学習する。
論文 参考訳(メタデータ) (2024-12-10T23:12:08Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文 参考訳(メタデータ) (2024-03-11T10:46:43Z) - Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion Network for Depth Completion [3.5940515868907164]
エンコーダ・デコーダ構造に基づく深度補完のための新しいモデルを提案する。
本モデルでは,マスク適応型Gated Convolutionアーキテクチャと双方向プログレッシブフュージョンモジュールの2つの重要なコンポーネントを紹介する。
深度マップの完成と既存手法の精度と信頼性に優れる性能を実現した。
論文 参考訳(メタデータ) (2024-01-15T02:58:06Z) - Generating Aligned Pseudo-Supervision from Non-Aligned Data for Image
Restoration in Under-Display Camera [84.41316720913785]
トレーニングデータ収集のための古典的なステレオセットアップを再考する -- 同じシーンの2つの画像を1つのUDCと1つの標準カメラでキャプチャする。
鍵となるアイデアは、高品質な参照イメージから詳細を"コピー"し、UDCイメージ上でそれらを"ペースト"することです。
トランスフォーマーベースの新しいフレームワークは、対応するUDC入力に対して、整合性はあるが高品質なターゲットデータを生成する。
論文 参考訳(メタデータ) (2023-04-12T17:56:42Z) - Deep Direct Volume Rendering: Learning Visual Feature Mappings From
Exemplary Images [57.253447453301796]
本稿では,ディープ・ダイレクト・ボリューム・レンダリング(Deep Direct Volume Rendering,DVR)を導入し,ディープ・ニューラル・ネットワークをDVRアルゴリズムに統合する。
潜在色空間におけるレンダリングを概念化し、深層アーキテクチャを用いて特徴抽出と分類のための暗黙マッピングを学習できるようにする。
我々の一般化は、画像空間の例から直接エンドツーエンドにトレーニングできる新しいボリュームレンダリングアーキテクチャを導き出すのに役立つ。
論文 参考訳(メタデータ) (2021-06-09T23:03:00Z) - Early Bird: Loop Closures from Opposing Viewpoints for
Perceptually-Aliased Indoor Environments [35.663671249819124]
本稿では,視点変化と知覚的エイリアスを同時に扱う新しい研究を提案する。
本稿では,VPRとSLAMの統合により,VPRの性能向上,特徴対応,グラフサブモジュールのポーズが著しく促進されることを示す。
知覚的エイリアス化や180度回転する極端な視点変化に拘わらず,最先端のパフォーマンスを実現するローカライズシステムについて初めて紹介する。
論文 参考訳(メタデータ) (2020-10-03T20:18:55Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Video Saliency Prediction Using Enhanced Spatiotemporal Alignment
Network [35.932447204088845]
ビデオ・サリエンシ予測に適した効果的な機能アライメント・ネットワーク(V)を開発した。
ネットワークは、隣接するフレームの特徴を粗い方法で参照フレームに整列させることを学ぶ。
提案したモデルはポスト処理なしでエンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-01-02T02:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。