論文の概要: Leveraging Tacit Information Embedded in CNN Layers for Visual Tracking
- arxiv url: http://arxiv.org/abs/2010.01204v1
- Date: Fri, 2 Oct 2020 21:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 02:00:00.683286
- Title: Leveraging Tacit Information Embedded in CNN Layers for Visual Tracking
- Title(参考訳): 視覚追跡のためのcnn層に埋め込まれたtacit情報の利用
- Authors: Kourosh Meshgi, Maryam Sadat Mirzaei, Shigeyuki Oba
- Abstract要約: そこで本研究では,複数のCNN層を1つのDCFトラッカーにアダプティブに組み合わせて,ターゲットの外観の変動に対処する手法を提案する。
実験では、CNNの暗黙のデータ層を使用することで、トラッカーが大幅に改善されている。
- 参考スコア(独自算出の注目度): 1.7188280334580193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different layers in CNNs provide not only different levels of abstraction for
describing the objects in the input but also encode various implicit
information about them. The activation patterns of different features contain
valuable information about the stream of incoming images: spatial relations,
temporal patterns, and co-occurrence of spatial and spatiotemporal (ST)
features. The studies in visual tracking literature, so far, utilized only one
of the CNN layers, a pre-fixed combination of them, or an ensemble of trackers
built upon individual layers. In this study, we employ an adaptive combination
of several CNN layers in a single DCF tracker to address variations of the
target appearances and propose the use of style statistics on both spatial and
temporal properties of the target, directly extracted from CNN layers for
visual tracking. Experiments demonstrate that using the additional implicit
data of CNNs significantly improves the performance of the tracker. Results
demonstrate the effectiveness of using style similarity and activation
consistency regularization in improving its localization and scale accuracy.
- Abstract(参考訳): cnnの異なるレイヤは、入力中のオブジェクトを記述するために異なる抽象レベルを提供するだけでなく、それらに関するさまざまな暗黙の情報をエンコードする。
異なる特徴の活性化パターンは、空間的関係、時間的パターン、空間的・時空間的特徴の共起など、入ってくる画像の流れに関する貴重な情報を含んでいる。
これまでの視覚追跡文学の研究では、cnnのレイヤーの1つ、それらの組み合わせ、あるいは個々のレイヤー上に構築されたトラッカーのアンサンブルのみを使用していた。
本研究では,単一DCFトラッカーにおける複数のCNN層を適応的に組み合わせて,対象の外観の変動に対処し,CNN層から直接抽出したターゲットの空間的・時間的特性に関するスタイル統計を視覚的追跡に用いることを提案する。
実験により、CNNの付加的な暗黙のデータを使用することで、トラッカーの性能が大幅に向上することが示された。
その結果,スタイル類似性とアクティベーション一貫性の規則化が,その局在性とスケール精度を向上させる効果を示した。
関連論文リスト
- MSSTNet: A Multi-Scale Spatio-Temporal CNN-Transformer Network for Dynamic Facial Expression Recognition [4.512502015606517]
マルチスケール時間CNN-Transformer Network (MSSTNet) を提案する。
提案手法はCNNが抽出した空間的異なるスケールを多スケール埋め込み層(MELayer)に供給する。
MELayerは、マルチスケール空間情報を抽出し、これらの特徴を符号化し、トランスフォーマー(T-Former)に送信する。
論文 参考訳(メタデータ) (2024-04-12T12:30:48Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - A novel feature-scrambling approach reveals the capacity of
convolutional neural networks to learn spatial relations [0.0]
畳み込みニューラルネットワーク(CNN)は、物体認識を解く最も成功したコンピュータビジョンシステムの一つである。
しかし、CNNが実際にどのように決断を下すのか、内部表現の性質や認識戦略が人間とどのように異なるのかは、いまだに理解されていない。
論文 参考訳(メタデータ) (2022-12-12T16:40:29Z) - RGB-D SLAM Using Attention Guided Frame Association [11.484398586420067]
RGB-D屋内SLAMにおけるタスク特化ネットワークアテンションの利用を提案する。
我々は,CNN層表現とレイヤワイドオブジェクトアテンション情報(層勾配)を統合し,フレームアソシエーション性能を向上させる。
実験では、パフォーマンスを改善した有望な初期結果が示されている。
論文 参考訳(メタデータ) (2022-01-28T11:23:29Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Adaptive Exploitation of Pre-trained Deep Convolutional Neural Networks
for Robust Visual Tracking [14.627458410954628]
本稿では,4つのCNNモデルを包括的に分析し,各モデルの最適な特徴マップを決定する。
解析結果を属性辞書として活用することにより,視覚トラッカーの精度とロバスト性を向上させるために,深部特徴の適応的利用を提案する。
論文 参考訳(メタデータ) (2020-08-29T17:09:43Z) - Decoding CNN based Object Classifier Using Visualization [6.666597301197889]
CNNのさまざまな畳み込み層で抽出される特徴の種類を視覚化する。
アクティベーションのヒートマップを可視化することは、CNNが画像内の異なるオブジェクトを分類し、ローカライズする方法を理解するのに役立ちます。
論文 参考訳(メタデータ) (2020-07-15T05:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。