論文の概要: AttentionNAS: Spatiotemporal Attention Cell Search for Video
Classification
- arxiv url: http://arxiv.org/abs/2007.12034v2
- Date: Fri, 31 Jul 2020 04:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:21:16.281757
- Title: AttentionNAS: Spatiotemporal Attention Cell Search for Video
Classification
- Title(参考訳): AttentionNAS:ビデオ分類のための時空間注意細胞探索
- Authors: Xiaofang Wang, Xuehan Xiong, Maxim Neumann, AJ Piergiovanni, Michael
S. Ryoo, Anelia Angelova, Kris M. Kitani and Wei Hua
- Abstract要約: 本稿では,時間的注意のための新しい検索空間を提案する。これにより,検索アルゴリズムはセルの様々な設計選択を柔軟に探索することができる。
検出されたアテンションセルは既存のバックボーンネットワーク(例えばI3DやS3D)にシームレスに挿入することができ、Kinetics-600とMiTのデータセットでビデオの精度を2%以上改善することができる。
- 参考スコア(独自算出の注目度): 86.64702967379709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional operations have two limitations: (1) do not explicitly model
where to focus as the same filter is applied to all the positions, and (2) are
unsuitable for modeling long-range dependencies as they only operate on a small
neighborhood. While both limitations can be alleviated by attention operations,
many design choices remain to be determined to use attention, especially when
applying attention to videos. Towards a principled way of applying attention to
videos, we address the task of spatiotemporal attention cell search. We propose
a novel search space for spatiotemporal attention cells, which allows the
search algorithm to flexibly explore various design choices in the cell. The
discovered attention cells can be seamlessly inserted into existing backbone
networks, e.g., I3D or S3D, and improve video classification accuracy by more
than 2% on both Kinetics-600 and MiT datasets. The discovered attention cells
outperform non-local blocks on both datasets, and demonstrate strong
generalization across different modalities, backbones, and datasets. Inserting
our attention cells into I3D-R50 yields state-of-the-art performance on both
datasets.
- Abstract(参考訳): 畳み込み操作には2つの制限がある:(1)同じフィルタを全ての位置に適用する場所を明示的にモデル化しないこと、(2)小さな近傍でのみ動作するような長距離依存性のモデル化には不向きである。
どちらの制限も注意操作によって緩和できるが、特にビデオに注意を向ける場合、注意を使用するように多くの設計選択が決定される。
ビデオに注意を向ける原理的な方法を目指して,時空間注意細胞探索の課題に対処する。
そこで本稿では, セルの様々な設計選択を柔軟に探索できる, 時空間アテンションセルの新しい探索空間を提案する。
検出されたアテンションセルは既存のバックボーンネットワーク(例えばI3DやS3D)にシームレスに挿入することができ、Kinetics-600とMiTのデータセットでビデオ分類精度を2%以上改善することができる。
検出された注意セルは、両方のデータセット上の非ローカルブロックよりも優れており、異なるモダリティ、バックボーン、データセットにまたがる強力な一般化を示している。
注意細胞をI3D-R50に挿入すると、両方のデータセットで最先端のパフォーマンスが得られる。
関連論文リスト
- Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - VoxelEmbed: 3D Instance Segmentation and Tracking with Voxel Embedding
based Deep Learning [5.434831972326107]
本稿では,3次元ボリュームビデオシーケンス上でのセルインスタンス分割と追跡を同時に行うための,空間時間ボクセル埋め込み(VoxelEmbed)に基づく学習手法を提案する。
I SBI Cell Tracking Challenge から,VoxelEmbed 法を4つの3次元データセット(細胞タイプが異なる)で評価した。
論文 参考訳(メタデータ) (2021-06-22T02:03:26Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Coordinate Attention for Efficient Mobile Network Design [96.40415345942186]
チャネルの注目に位置情報を埋め込むことにより,モバイルネットワークに対する新たな注意メカニズムを提案する。
2次元グローバルプーリングにより特徴テンソルを単一特徴ベクトルに変換するチャネルアテンションとは異なり、座標アテンションはチャネルアテンションを2つの1次元特徴符号化プロセスに分解する。
座標の注意はImageNetの分類に有用であり、オブジェクト検出やセマンティックセグメンテーションといった下流タスクではよりうまく振る舞う。
論文 参考訳(メタデータ) (2021-03-04T09:18:02Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Cell Segmentation and Tracking using CNN-Based Distance Predictions and
a Graph-Based Matching Strategy [0.20999222360659608]
顕微鏡画像における触覚細胞のセグメンテーション法を提案する。
距離マップにインスパイアされた新しい細胞境界の表現を用いることで, 触覚細胞だけでなく, 近接細胞をトレーニングプロセスで利用することができる。
この表現は、特にアノテーションエラーに対して堅牢であり、未表現または未含の細胞型を含むトレーニングデータに含まれる顕微鏡画像のセグメンテーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-03T11:55:28Z) - Knowing What, Where and When to Look: Efficient Video Action Modeling
with Attention [84.83632045374155]
注意ビデオモデリングは、制約のないビデオにおける行動認識に不可欠である。
What-Where-When (W3)ビデオアテンションモジュールは、ビデオアテンションの3つの面を一緒にモデル化する。
実験により,我々の注意モデルが既存の行動認識モデルに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-04-02T21:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。