論文の概要: TTAN: Two-Stage Temporal Alignment Network for Few-shot Action
Recognition
- arxiv url: http://arxiv.org/abs/2107.04782v1
- Date: Sat, 10 Jul 2021 07:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:00:51.840187
- Title: TTAN: Two-Stage Temporal Alignment Network for Few-shot Action
Recognition
- Title(参考訳): TTAN:Few-shot行動認識のための2段階時間アライメントネットワーク
- Authors: Shuyuan Li, Huabin Liu, Rui Qian, Yuxi Li, John See, Mengjuan Fei,
Xiaoyuan Yu, Weiyao Lin
- Abstract要約: 少数のサンプル(支援)を用いた新規なアクションクラス(クエリ)の認識を目的としたアクション認識
我々は,サポートサンプル間のミスアライメントを考慮に入れた,新しいマルチショットフュージョン戦略を考案した。
ベンチマークデータセットを用いた実験では,数発のアクション認識のための最先端性能を実現する上で,提案手法の可能性を示した。
- 参考スコア(独自算出の注目度): 29.95184808021684
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Few-shot action recognition aims to recognize novel action classes (query)
using just a few samples (support). The majority of current approaches follow
the metric learning paradigm, which learns to compare the similarity between
videos. Recently, it has been observed that directly measuring this similarity
is not ideal since different action instances may show distinctive temporal
distribution, resulting in severe misalignment issues across query and support
videos. In this paper, we arrest this problem from two distinct aspects --
action duration misalignment and motion evolution misalignment. We address them
sequentially through a Two-stage Temporal Alignment Network (TTAN). The first
stage performs temporal transformation with the predicted affine warp
parameters, while the second stage utilizes a cross-attention mechanism to
coordinate the features of the support and query to a consistent evolution.
Besides, we devise a novel multi-shot fusion strategy, which takes the
misalignment among support samples into consideration. Ablation studies and
visualizations demonstrate the role played by both stages in addressing the
misalignment. Extensive experiments on benchmark datasets show the potential of
the proposed method in achieving state-of-the-art performance for few-shot
action recognition.
- Abstract(参考訳): 数少ないアクション認識は、少数のサンプル(サポート)を使用して、新しいアクションクラス(クエリ)を認識することを目的としている。
現在のアプローチの大半は、ビデオ間の類似性を比較するために学習するメトリック学習パラダイムに従っている。
近年,このような類似性を直接測定することは理想的ではないことが観測されている。
本稿では,動作継続時間の誤認と動作進化の誤認の2つの側面からこの問題を逮捕する。
我々は2段階の時間アライメントネットワーク(TTAN)を通してそれらを逐次処理する。
第1段階は予測されたアフィンワープパラメータで時間変換を行い、第2段階はクロスアテンション機構を使用してサポートとクエリの特徴を一貫した進化に調整する。
さらに,サポートサンプル間の不一致を考慮した,新しいマルチショット融合戦略を考案する。
アブレーション研究と可視化は、両方の段階が誤認識に対処する役割を実証している。
ベンチマークデータセットに関する広範囲な実験により, 提案手法が, 最先端の動作認識性能を実現する可能性を示した。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Representation Learning via Global Temporal Alignment and
Cycle-Consistency [20.715813546383178]
時間列の整合に基づく表現学習のための弱教師付き手法を提案する。
従来方式に比べて大幅な性能向上を報告しています。
さらに、時間アライメントフレームワークの2つのアプリケーション、すなわち3Dポーズ再構築ときめ細かいオーディオ/ビジュアル検索を報告します。
論文 参考訳(メタデータ) (2021-05-11T17:34:04Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Temporal-Relational CrossTransformers for Few-Shot Action Recognition [82.0033565755246]
提案手法は,サポートセット内のクエリとビデオの間に時間的対応性のあるフレームを見出すことである。
先行研究とは別として,全サポートビデオの関連サブシーケンスを観察するために,クロストランスフォーマアテンション機構を用いたクラスプロトタイプを構築した。
詳細なアブレーションは、複数のサポートセットビデオとマッチングし、高階クロストランスフォーマーを学ぶことの重要性を示しています。
論文 参考訳(メタデータ) (2021-01-15T15:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。