論文の概要: Task-Specific Alignment and Multiple Level Transformer for Few-Shot
Action Recognition
- arxiv url: http://arxiv.org/abs/2307.01985v2
- Date: Fri, 1 Dec 2023 02:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:18:51.168894
- Title: Task-Specific Alignment and Multiple Level Transformer for Few-Shot
Action Recognition
- Title(参考訳): 少数ショット動作認識のためのタスク固有アライメントと多レベルトランスフォーマ
- Authors: Fei Guo, Li Zhu, YiWang Wang, Jing Sun
- Abstract要約: 近年、一部の研究はTransformerを使ってフレームを処理し、注目機能と改良されたプロトタイプを入手し、その結果は競争力がある。
我々は、これらの問題を"Task-Specific Alignment and Multiple-level Transformer Network (TSA-MLT)"と呼ばれるエンドツーエンドの手法で解決する。
提案手法は,HMDB51およびUCF101データセットの最先端結果と,KineeticsベンチマークとV2データセットの競合結果とを比較検討する。
- 参考スコア(独自算出の注目度): 11.700737340560796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the research field of few-shot learning, the main difference between
image-based and video-based is the additional temporal dimension. In recent
years, some works have used the Transformer to deal with frames, then get the
attention feature and the enhanced prototype, and the results are competitive.
However, some video frames may relate little to the action, and only using
single frame-level or segment-level features may not mine enough information.
We address these problems sequentially through an end-to-end method named
"Task-Specific Alignment and Multiple-level Transformer Network (TSA-MLT)". The
first module (TSA) aims at filtering the action-irrelevant frames for action
duration alignment. Affine Transformation for frame sequence in the time
dimension is used for linear sampling. The second module (MLT) focuses on the
Multiple-level feature of the support prototype and query sample to mine more
information for the alignment, which operates on different level features. We
adopt a fusion loss according to a fusion distance that fuses the L2 sequence
distance, which focuses on temporal order alignment, and the Optimal Transport
distance, which focuses on measuring the gap between the appearance and
semantics of the videos. Extensive experiments show our method achieves
state-of-the-art results on the HMDB51 and UCF101 datasets and a competitive
result on the benchmark of Kinetics and something 2-something V2 datasets. Our
code is available at the URL: https://github.com/cofly2014/tsa-mlt.git
- Abstract(参考訳): 少数ショット学習の研究分野において、画像ベースとビデオベースの主な違いは時間次元の追加である。
近年、一部の研究はTransformerを使ってフレームを処理し、注目機能と改良されたプロトタイプを入手し、その結果は競争力がある。
しかし、一部のビデオフレームはアクションとはほとんど関係がなく、単一のフレームレベルまたはセグメントレベルの機能を使用するだけでは十分な情報をマイニングできない。
本稿では,これらの問題を"Task-Specific Alignment and Multiple-level Transformer Network (TSA-MLT)"と呼ばれるエンドツーエンドの手法で順次解決する。
第1モジュール(TSA)は、アクション時間アライメントのためにアクション非関連フレームをフィルタリングすることを目的としている。
時間次元のフレームシーケンスに対するアフィン変換は線形サンプリングに使用される。
第2モジュール(MLT)は、サポートプロトタイプのマルチレベル機能とクエリサンプルに焦点を当て、異なるレベル機能で動作するアライメントのためのさらなる情報を見出す。
我々は、時間的順序アライメントに焦点を当てたL2配列距離と、ビデオの外観と意味のギャップを計測する最適輸送距離とを融合する融合距離に基づく融合損失を採用する。
実験の結果,HMDB51およびUCF101データセットの最先端結果と,KineticsベンチマークとV2データセットの競合結果が得られた。
私たちのコードはurlで入手できる。 https://github.com/cofly2014/tsa-mlt.git
関連論文リスト
- MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition [36.426688592783975]
MVP-Shotは、セマンティック関連アクション機能をマルチ速度レベルで学習し、調整するフレームワークである。
MVFAモジュールは、サポートからのフィーチャと、異なる速度スケールのクエリビデオの類似度を測定する。
PSTモジュールは、チャネルと時間領域の機能相互作用を通じて、速度調整されたテキスト情報をビデオ機能に注入する。
論文 参考訳(メタデータ) (2024-05-03T13:10:16Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Temporal-Relational CrossTransformers for Few-Shot Action Recognition [82.0033565755246]
提案手法は,サポートセット内のクエリとビデオの間に時間的対応性のあるフレームを見出すことである。
先行研究とは別として,全サポートビデオの関連サブシーケンスを観察するために,クロストランスフォーマアテンション機構を用いたクラスプロトタイプを構築した。
詳細なアブレーションは、複数のサポートセットビデオとマッチングし、高階クロストランスフォーマーを学ぶことの重要性を示しています。
論文 参考訳(メタデータ) (2021-01-15T15:47:35Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。