論文の概要: Action Forecasting with Feature-wise Self-Attention
- arxiv url: http://arxiv.org/abs/2107.08579v1
- Date: Mon, 19 Jul 2021 01:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 01:43:54.409448
- Title: Action Forecasting with Feature-wise Self-Attention
- Title(参考訳): 特徴的自己注意による行動予測
- Authors: Yan Bin Ng, Basura Fernando
- Abstract要約: ビデオからの人間の行動予測のための新しいアーキテクチャを提案する。
テンポラリカレントエンコーダは、入力ビデオの時間情報をキャプチャする。
自己アテンションモデルは、入力空間の関連する特徴次元に対応するために使用される。
- 参考スコア(独自算出の注目度): 20.068238091354583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new architecture for human action forecasting from videos. A
temporal recurrent encoder captures temporal information of input videos while
a self-attention model is used to attend on relevant feature dimensions of the
input space. To handle temporal variations in observed video data, a feature
masking techniques is employed. We classify observed actions accurately using
an auxiliary classifier which helps to understand what has happened so far.
Then the decoder generates actions for the future based on the output of the
recurrent encoder and the self-attention model. Experimentally, we validate
each component of our architecture where we see that the impact of
self-attention to identify relevant feature dimensions, temporal masking, and
observed auxiliary classifier. We evaluate our method on two standard action
forecasting benchmarks and obtain state-of-the-art results.
- Abstract(参考訳): ビデオからの人間の行動予測のための新しいアーキテクチャを提案する。
テンポラルリカレントエンコーダは入力ビデオの時間情報をキャプチャし、セルフアテンションモデルは入力空間の関連する特徴次元に付随する。
観察ビデオデータの時間的変動に対処するために,特徴マスキング技術を用いる。
これまでに起こったことを理解するのに役立つ補助分類器を用いて,観察した動作を正確に分類する。
そして、復号器は、再帰エンコーダと自己保持モデルの出力に基づいて、未来のアクションを生成する。
実験では,各コンポーネントの検証を行い,自己注意が関連する特徴量,時間的マスキング,観察された補助的分類器に与えた影響を検証した。
提案手法を2つの標準行動予測ベンチマークで評価し,その結果を得た。
関連論文リスト
- Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - CAST: Cross-Attention in Space and Time for Video Action Recognition [8.785207228156098]
空間時間におけるクロスアテンション(CAST)と呼ばれる新しい2ストリームアーキテクチャを提案する。
CASTは、バランスの取れた入力のみを使用して、ビデオの時間的バランスの取れた理解を実現する。
提案手法により,空間的・時間的専門家モデルによる情報交換と相乗的予測が可能となる。
論文 参考訳(メタデータ) (2023-11-30T18:58:51Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。
本論文の主な焦点は、合成/ファウショット動作認識である。
レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文 参考訳(メタデータ) (2021-11-02T23:04:39Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - CLTA: Contents and Length-based Temporal Attention for Few-shot Action
Recognition [2.0349696181833337]
本稿では,個々のビデオに対して時間的注意をカスタマイズしたコンテンツと長さに基づく時間的注意モデルを提案する。
通常のソフトマックス分類器で微調整されていないバックボーンであっても、最先端のアクション認識と同等あるいはそれ以上の結果が得られる。
論文 参考訳(メタデータ) (2021-03-18T23:40:28Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。