論文の概要: Deep ViT Features as Dense Visual Descriptors
- arxiv url: http://arxiv.org/abs/2112.05814v1
- Date: Fri, 10 Dec 2021 20:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 19:13:42.310959
- Title: Deep ViT Features as Dense Visual Descriptors
- Title(参考訳): ビジュアルディスクリプタとして深いViT機能
- Authors: Shir Amir, Yossi Gandelsman, Shai Bagon and Tali Dekel
- Abstract要約: 我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を濃密な視覚ディスクリプタとして活用する。
これらの記述子は、コセグメンテーション、部分のコセグメンテーション、および対応を含む様々な応用を促進する。
- 参考スコア(独自算出の注目度): 12.83702462166513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We leverage deep features extracted from a pre-trained Vision Transformer
(ViT) as dense visual descriptors. We demonstrate that such features, when
extracted from a self-supervised ViT model (DINO-ViT), exhibit several striking
properties: (i) the features encode powerful high level information at high
spatial resolution -- i.e., capture semantic object parts at fine spatial
granularity, and (ii) the encoded semantic information is shared across
related, yet different object categories (i.e. super-categories). These
properties allow us to design powerful dense ViT descriptors that facilitate a
variety of applications, including co-segmentation, part co-segmentation and
correspondences -- all achieved by applying lightweight methodologies to deep
ViT features (e.g., binning / clustering). We take these applications further
to the realm of inter-class tasks -- demonstrating how objects from related
categories can be commonly segmented into semantic parts, under significant
pose and appearance changes. Our methods, extensively evaluated qualitatively
and quantitatively, achieve state-of-the-art part co-segmentation results, and
competitive results with recent supervised methods trained specifically for
co-segmentation and correspondences.
- Abstract(参考訳): 我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を濃密な視覚ディスクリプタとして活用する。
自己教師型ViTモデル(DINO-ViT)から抽出された特徴は,いくつかの顕著な特性を示す。
(i)高空間解像度で強力な高レベル情報を符号化する特徴、すなわち、細かな空間的粒度で意味オブジェクトをキャプチャする特徴、
(ii) 符号化された意味情報は関連するが異なる対象カテゴリ(スーパーカテゴリ)間で共有される。
これらの特性により、コセグメンテーション、部分のコセグメンテーション、対応を含む様々なアプリケーションを容易にする強力な高密度なViT記述子を設計することができます。
これらのアプリケーションはクラス間タスクの領域へとさらに進み、関連するカテゴリからのオブジェクトを意味的な部分に分割し、重要なポーズと外観の変化の下で示す。
本手法は, 質的, 定量的に評価し, 最先端のコーセグメンテーション結果を達成し, 近年, コーセグメンテーションと対応のために特別に訓練された教師付き手法との競合結果を得た。
関連論文リスト
- EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised
Semantic Segmentation [5.982285717206533]
意味的類似性行列から派生した固有ベイズを通して意味的および構造的手がかりを提供する手法であるEiCueを紹介する。
オブジェクトレベルの表現を画像内および画像間の整合性で学習する。
COCO-Stuff、Cityscapes、Potsdam-3データセットの実験では、最先端のUSSの結果が示されている。
論文 参考訳(メタデータ) (2024-03-03T11:24:16Z) - Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文 参考訳(メタデータ) (2023-05-05T04:11:00Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - AttEntropy: Segmenting Unknown Objects in Complex Scenes using the
Spatial Attention Entropy of Semantic Segmentation Transformers [99.22536338338011]
セマンティックセグメンテーショントランスの異なるバックボーン層の空間的注意度について検討する。
我々はこれを、未知のオブジェクトをさまざまな背景に分割するのに使用できるヒートマップを抽出することで活用する。
本手法はトレーニング不要であり,その計算オーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2022-12-29T18:07:56Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Semantically Enhanced Global Reasoning for Semantic Segmentation [37.64601713565947]
画像特徴を潜在領域表現に投影し,グローバルな推論を行うことを学ぶ。
結果として生じる意味的グローバル推論(SGR)は、エンドツーエンドのトレーニングが可能で、任意の意味的セグメンテーションフレームワークと組み合わせることができる。
オブジェクトクラスとインスタンスレベルの両方で表現の意味を計測できる新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Superevents: Towards Native Semantic Segmentation for Event-based
Cameras [13.099264910430986]
最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-13T05:49:41Z) - Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。
提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。
4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文 参考訳(メタデータ) (2020-11-04T23:07:07Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。