論文の概要: From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot
Keypoint Detection
- arxiv url: http://arxiv.org/abs/2304.03140v1
- Date: Thu, 6 Apr 2023 15:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 13:52:21.745875
- Title: From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot
Keypoint Detection
- Title(参考訳): saliency から dino へ: 数少ないキーポイント検出のためのsaliency-guided vision transformer
- Authors: Changsheng Lu, Hao Zhu, Piotr Koniusz
- Abstract要約: FSKD(Few-shot Keypoint Detection)は、参照サンプルに応じて、新規またはベースキーポイントを含むキーポイントをローカライズする。
FSKDは、ユビキタスノイズと曖昧な局所パターンを克服するために、キーポイント類似性学習に意味論的に意味のある関係を必要とする。
数発のキーポイント検出のための新しいサリエンシ誘導型視覚変換器であるSalViTを提案する。
- 参考スコア(独自算出の注目度): 36.9781808268263
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unlike current deep keypoint detectors that are trained to recognize limited
number of body parts, few-shot keypoint detection (FSKD) attempts to localize
any keypoints, including novel or base keypoints, depending on the reference
samples. FSKD requires the semantically meaningful relations for keypoint
similarity learning to overcome the ubiquitous noise and ambiguous local
patterns. One rescue comes with vision transformer (ViT) as it captures
long-range relations well. However, ViT may model irrelevant features outside
of the region of interest due to the global attention matrix, thus degrading
similarity learning between support and query features. In this paper, we
present a novel saliency-guided vision transformer, dubbed SalViT, for few-shot
keypoint detection. Our SalViT enjoys a uniquely designed masked self-attention
and a morphology learner, where the former introduces saliency map as a soft
mask to constrain the self-attention on foregrounds, while the latter leverages
the so-called power normalization to adjust morphology of saliency map,
realizing ``dynamically changing receptive field''. Moreover, as salinecy
detectors add computations, we show that attentive masks of DINO transformer
can replace saliency. On top of SalViT, we also investigate i) transductive
FSKD that enhances keypoint representations with unlabelled data and ii) FSKD
under occlusions. We show that our model performs well on five public datasets
and achieves ~10% PCK higher than the normally trained model under severe
occlusions.
- Abstract(参考訳): 現在のディープキーポイント検出器は、限られた数のボディ部品を認識するよう訓練されているが、少数ショットキーポイント検出(FSKD)は、基準サンプルに応じて、新規またはベースキーポイントを含む任意のキーポイントをローカライズしようとする。
FSKDは、ユビキタスノイズと曖昧な局所パターンを克服するために、キーポイント類似性学習に意味論的に意味のある関係を必要とする。
ひとつは視覚変換器(ViT)で、長距離関係をうまく捉えている。
しかし、ViTは、グローバルアテンションマトリックスによる関心領域外の無関係な特徴をモデル化することで、サポートとクエリ機能間の類似性学習を低下させる可能性がある。
本稿では,数発キーポイント検出のための新しいsaliency-guided vision transformer(salvit)を提案する。
我々のSalViTは独自のマスク付き自己注意と形態学習を楽しみ、前者はソフトマスクとして唾液マップを導入して前景への自己注意を制限し、後者はいわゆるパワー正規化を活用して「動的に変化する受容場」を実現する。
さらに,塩分検出器が計算量を加えると,ダイノ変圧器の注意マスクが塩分を置き換えられることを示した。
SalViT上でも調査する。
一 不正なデータによるキーポイント表現を強化するトランスダクティブFSKD
二 FSKDを介在する。
我々は,本モデルが5つの公開データセット上で良好に動作し,厳密な閉塞下での訓練モデルよりも約10%のPCKを達成することを示す。
関連論文リスト
- MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity [22.058051526676998]
データフリー量子化(DFQ)は、元のトレーニングデータなしで、しばしば合成データセットを通じて、フル精度のネットワークから軽量なネットワークを作成するテクニックである。
視覚変換器(ViT)アーキテクチャにはいくつかのDFQ法が提案されているが、低ビット設定では有効性は得られていない。
そこで我々は,視覚障害者を対象とした新しいDFQ手法であるMimiQを提案する。
論文 参考訳(メタデータ) (2024-07-29T13:57:40Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Spatial Transform Decoupling for Oriented Object Detection [43.44237345360947]
ビジョントランスフォーマー (ViT) はコンピュータビジョンタスクにおいて顕著な成功を収めた。
本稿では,空間変換デカップリング(Spatial Transform Decoupling,STD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:36:23Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。