論文の概要: Task-Specific Alignment and Multiple Level Transformer for Few-Shot
Action Recognition
- arxiv url: http://arxiv.org/abs/2307.01985v1
- Date: Wed, 5 Jul 2023 02:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:22:26.869957
- Title: Task-Specific Alignment and Multiple Level Transformer for Few-Shot
Action Recognition
- Title(参考訳): 少数ショット動作認識のためのタスク固有アライメントと多レベルトランスフォーマ
- Authors: Fei Guo, Li Zhu, YiWang Wang
- Abstract要約: 本稿では,TSA-MLT(Task-Specific Alignment and Multiple Level Transformer Network)というエンドツーエンド手法を提案する。
我々のモデルでは、Multiple Level Transformerはサポートビデオとクエリビデオのマルチレベル機能に焦点を当てている。
提案手法は,HMDB51およびUCF101データセットの最先端結果と,KineticsとV2データセットのベンチマークによる競合結果を得る。
- 参考スコア(独自算出の注目度): 12.975540251326683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the research field of few-shot learning, the main difference between
image-based and video-based is the additional temporal dimension for videos. In
recent years, many approaches for few-shot action recognition have followed the
metric-based methods, especially, since some works use the Transformer to get
the cross-attention feature of the videos or the enhanced prototype, and the
results are competitive. However, they do not mine enough information from the
Transformer because they only focus on the feature of a single level. In our
paper, we have addressed this problem. We propose an end-to-end method named
"Task-Specific Alignment and Multiple Level Transformer Network (TSA-MLT)". In
our model, the Multiple Level Transformer focuses on the multiple-level feature
of the support video and query video. Especially before Multiple Level
Transformer, we use task-specific TSA to filter unimportant or misleading
frames as a pre-processing. Furthermore, we adopt a fusion loss using two kinds
of distance, the first is L2 sequence distance, which focuses on temporal order
alignment. The second one is Optimal transport distance, which focuses on
measuring the gap between the appearance and semantics of the videos. Using a
simple fusion network, we fuse the two distances element-wise, then use the
cross-entropy loss as our fusion loss. Extensive experiments show our method
achieves state-of-the-art results on the HMDB51 and UCF101 datasets and a
competitive result on the benchmark of Kinetics and something-2-something V2
datasets. Our code will be available at the URL:
https://github.com/cofly2014/tsa-mlt.git
- Abstract(参考訳): 少数ショット学習の研究分野において、画像ベースとビデオベースの主な違いは、ビデオの時間次元の追加である。
近年では、ビデオや拡張プロトタイプのクロスアテンション機能を得るためにトランスフォーマを用いた作品がいくつかあり、その結果は競争力があるため、数発のアクション認識に対する多くのアプローチがメートル法に準拠している。
しかし、それらは1つのレベルの特徴のみに焦点を当てているため、トランスフォーマーから十分な情報をマイニングすることができない。
本稿ではこの問題に対処した。
本稿では,Task-Specific Alignment and Multiple Level Transformer Network (TSA-MLT) というエンドツーエンド手法を提案する。
我々のモデルでは、Multiple Level Transformerはサポートビデオとクエリビデオのマルチレベル機能に焦点を当てている。
特に、Multiple Level Transformerの前には、タスク固有のTSAを使用して、重要でないフレームや誤解を招くフレームを前処理としてフィルタリングする。
さらに,2種類の距離を用いた融合損失(第1はL2配列距離)を採用し,時間次アライメントに着目した。
2つ目は最適な移動距離で、ビデオの外観とセマンティクスの差を測定することに焦点を当てている。
単純な核融合ネットワークを使って、2つの距離を要素ごとに融合し、クロスエントロピー損失を核融合損失として利用します。
実験の結果,HMDB51およびUCF101データセットの最先端結果と,KineeticsベンチマークとV2データセットの競合結果が得られた。
私たちのコードはurlで入手できる。 https://github.com/cofly2014/tsa-mlt.git
関連論文リスト
- MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition [36.426688592783975]
MVP-Shotは、セマンティック関連アクション機能をマルチ速度レベルで学習し、調整するフレームワークである。
MVFAモジュールは、サポートからのフィーチャと、異なる速度スケールのクエリビデオの類似度を測定する。
PSTモジュールは、チャネルと時間領域の機能相互作用を通じて、速度調整されたテキスト情報をビデオ機能に注入する。
論文 参考訳(メタデータ) (2024-05-03T13:10:16Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Temporal-Relational CrossTransformers for Few-Shot Action Recognition [82.0033565755246]
提案手法は,サポートセット内のクエリとビデオの間に時間的対応性のあるフレームを見出すことである。
先行研究とは別として,全サポートビデオの関連サブシーケンスを観察するために,クロストランスフォーマアテンション機構を用いたクラスプロトタイプを構築した。
詳細なアブレーションは、複数のサポートセットビデオとマッチングし、高階クロストランスフォーマーを学ぶことの重要性を示しています。
論文 参考訳(メタデータ) (2021-01-15T15:47:35Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。