論文の概要: Temporal-Relational CrossTransformers for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2101.06184v2
- Date: Thu, 18 Mar 2021 15:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 15:11:15.128400
- Title: Temporal-Relational CrossTransformers for Few-Shot Action Recognition
- Title(参考訳): Few-Shot行動認識のための時間関係クロストランス
- Authors: Toby Perrett and Alessandro Masullo and Tilo Burghardt and Majid
Mirmehdi and Dima Damen
- Abstract要約: 提案手法は,サポートセット内のクエリとビデオの間に時間的対応性のあるフレームを見出すことである。
先行研究とは別として,全サポートビデオの関連サブシーケンスを観察するために,クロストランスフォーマアテンション機構を用いたクラスプロトタイプを構築した。
詳細なアブレーションは、複数のサポートセットビデオとマッチングし、高階クロストランスフォーマーを学ぶことの重要性を示しています。
- 参考スコア(独自算出の注目度): 82.0033565755246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach to few-shot action recognition, finding
temporally-corresponding frame tuples between the query and videos in the
support set. Distinct from previous few-shot works, we construct class
prototypes using the CrossTransformer attention mechanism to observe relevant
sub-sequences of all support videos, rather than using class averages or single
best matches. Video representations are formed from ordered tuples of varying
numbers of frames, which allows sub-sequences of actions at different speeds
and temporal offsets to be compared.
Our proposed Temporal-Relational CrossTransformers (TRX) achieve
state-of-the-art results on few-shot splits of Kinetics, Something-Something V2
(SSv2), HMDB51 and UCF101. Importantly, our method outperforms prior work on
SSv2 by a wide margin (12%) due to the its ability to model temporal relations.
A detailed ablation showcases the importance of matching to multiple support
set videos and learning higher-order relational CrossTransformers.
- Abstract(参考訳): 提案手法は,クエリとビデオ間の時間的対応のフレームタプルを,サポートセット内で検出するものである。
先行作とは別として,クラス平均や単一ベストマッチではなく,全サポートビデオの関連サブシーケンスを観察するためにクロストランスフォーマアアテンション機構を用いたクラスプロトタイプを構築した。
ビデオ表現は、異なる速度でのアクションのサブシーケンスと時間オフセットの比較を可能にする、さまざまなフレーム数の順序タプルから形成される。
提案するTRX(Temporal-Relational Cross Transformers)は,数発のkinetics, something-Something V2 (SSv2), HMDB51, UCF101の分割に対して,最先端の結果が得られる。
本手法は,時間的関係をモデル化する能力により,SSv2の先行研究を12%の差で上回っている。
詳細なアブレーションでは、複数のサポートセットビデオとマッチングし、高階リレーショナルCrossTransformerを学ぶことの重要性が示されている。
関連論文リスト
- Task-Specific Alignment and Multiple Level Transformer for Few-Shot
Action Recognition [11.700737340560796]
近年、一部の研究はTransformerを使ってフレームを処理し、注目機能と改良されたプロトタイプを入手し、その結果は競争力がある。
我々は、これらの問題を"Task-Specific Alignment and Multiple-level Transformer Network (TSA-MLT)"と呼ばれるエンドツーエンドの手法で解決する。
提案手法は,HMDB51およびUCF101データセットの最先端結果と,KineeticsベンチマークとV2データセットの競合結果とを比較検討する。
論文 参考訳(メタデータ) (2023-07-05T02:13:25Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Alignment-guided Temporal Attention for Video Action Recognition [18.5171795689609]
フレームごとのアライメントは、フレーム表現間の相互情報を増大させる可能性があることを示す。
隣接フレーム間のパラメータフリーパッチレベルのアライメントで1次元の時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:10:47Z) - Inductive and Transductive Few-Shot Video Classification via Appearance
and Temporal Alignments [17.673345523918947]
本稿では,出現と時間的アライメントを行う数ショット映像分類の新しい手法を提案する。
提案手法は, 両方のデータセットにおいて, 従来手法と類似した, あるいは良好な結果が得られる。
論文 参考訳(メタデータ) (2022-07-21T23:28:52Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - TTAN: Two-Stage Temporal Alignment Network for Few-shot Action
Recognition [29.95184808021684]
少数のサンプル(支援)を用いた新規なアクションクラス(クエリ)の認識を目的としたアクション認識
我々は,サポートサンプル間のミスアライメントを考慮に入れた,新しいマルチショットフュージョン戦略を考案した。
ベンチマークデータセットを用いた実験では,数発のアクション認識のための最先端性能を実現する上で,提案手法の可能性を示した。
論文 参考訳(メタデータ) (2021-07-10T07:22:49Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。