論文の概要: Keypoints Tracking via Transformer Networks
- arxiv url: http://arxiv.org/abs/2203.12848v1
- Date: Thu, 24 Mar 2022 05:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 23:57:49.372975
- Title: Keypoints Tracking via Transformer Networks
- Title(参考訳): 変圧器ネットワークによるキーポイント追跡
- Authors: Oleksii Nasypanyi, Francois Rameau
- Abstract要約: 本稿では,トランスフォーマネットワークを用いた画像間におけるスパースキーポイントの追跡に関する先駆的な研究を提案する。
実時間およびロバストなキーポイントトラッキングの特定の事例について検討する。
提案手法は, 粗いマッチングと, キーポイントの対応の微妙な局所化の2段階からなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this thesis, we propose a pioneering work on sparse keypoints tracking
across images using transformer networks. While deep learning-based keypoints
matching have been widely investigated using graph neural networks - and more
recently transformer networks, they remain relatively too slow to operate in
real-time and are particularly sensitive to the poor repeatability of the
keypoints detectors. In order to address these shortcomings, we propose to
study the particular case of real-time and robust keypoints tracking.
Specifically, we propose a novel architecture which ensures a fast and robust
estimation of the keypoints tracking between successive images of a video
sequence. Our method takes advantage of a recent breakthrough in computer
vision, namely, visual transformer networks. Our method consists of two
successive stages, a coarse matching followed by a fine localization of the
keypoints' correspondences prediction. Through various experiments, we
demonstrate that our approach achieves competitive results and demonstrates
high robustness against adverse conditions, such as illumination change,
occlusion and viewpoint differences.
- Abstract(参考訳): そこで本論文では,トランスフォーマーネットワークを用いた画像間の疎鍵点追跡の先駆的な研究を提案する。
ディープラーニングベースのキーポイントマッチングは、グラフニューラルネットワーク(最近ではトランスフォーマーネットワーク)を使用して広く研究されているが、リアルタイムに運用するには比較的遅く、キーポイント検出器の再現性に特に敏感である。
これらの欠点に対処するために,リアルタイムかつロバストなキーポイント追跡の具体例を検討することを提案する。
具体的には,映像列の連続画像間を追跡するキーポイントの高速かつロバストな推定を実現する新しいアーキテクチャを提案する。
本手法は,最近のコンピュータビジョン,すなわち視覚トランスフォーマーネットワークにおけるブレークスルーを利用したものである。
提案手法は,連続する2段階からなり,粗いマッチングと,キーポイントの対応予測の微妙な局所化を行う。
様々な実験を通じて,本手法は競争的結果を達成し,照明変化,咬合,視点差などの悪条件に対して高い頑健性を示す。
関連論文リスト
- Self-supervised Interest Point Detection and Description for Fisheye and
Perspective Images [7.451395029642832]
キーポイント検出とマッチングは多くのコンピュータビジョンにおける基本的な課題である。
本研究では,画像取得に使用されるカメラの形状が原因で発生する場合に焦点をあてる。
我々は最先端のアプローチを構築し、関心点検出器と記述子ネットワークのトレーニングを可能にする自己監督的な手順を導出する。
論文 参考訳(メタデータ) (2023-06-02T22:39:33Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Self-Supervised Equivariant Learning for Oriented Keypoint Detection [35.94215211409985]
我々は、回転同変CNNを用いた自己教師付き学習フレームワークを導入し、ロバスト指向キーポイントの検出を学習する。
ヒストグラムに基づく配向マップのトレーニングのために,合成変換により生成した画像対による高密度配向損失を提案する。
提案手法は,画像マッチングベンチマークとカメラポーズ推定ベンチマークにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T02:26:07Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - A Detector-oblivious Multi-arm Network for Keypoint Matching [14.051194519908455]
地域重なりと深度を学習するマルチアームネットワーク(MAN)を提案する。
屋外および屋内のデータセットを用いた総合的な実験により,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-02T08:55:04Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。