論文の概要: Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition
- arxiv url: http://arxiv.org/abs/2207.09759v1
- Date: Wed, 20 Jul 2022 09:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:36:38.384870
- Title: Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition
- Title(参考訳): アクション認識のためのタスク適応型時空間ビデオサンプリング
- Authors: Huabin Liu, Weixian Lv, John See, Weiyao Lin
- Abstract要約: 本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
- 参考スコア(独自算出の注目度): 25.888314212797436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A primary challenge faced in few-shot action recognition is inadequate video
data for training. To address this issue, current methods in this field mainly
focus on devising algorithms at the feature level while little attention is
paid to processing input video data. Moreover, existing frame sampling
strategies may omit critical action information in temporal and spatial
dimensions, which further impacts video utilization efficiency. In this paper,
we propose a novel video frame sampler for few-shot action recognition to
address this issue, where task-specific spatial-temporal frame sampling is
achieved via a temporal selector (TS) and a spatial amplifier (SA).
Specifically, our sampler first scans the whole video at a small computational
cost to obtain a global perception of video frames. The TS plays its role in
selecting top-T frames that contribute most significantly and subsequently. The
SA emphasizes the discriminative information of each frame by amplifying
critical regions with the guidance of saliency maps. We further adopt
task-adaptive learning to dynamically adjust the sampling strategy according to
the episode task at hand. Both the implementations of TS and SA are
differentiable for end-to-end optimization, facilitating seamless integration
of our proposed sampler with most few-shot action recognition methods.
Extensive experiments show a significant boost in the performances on various
benchmarks including long-term videos.
- Abstract(参考訳): 数発のアクション認識で直面する主な課題は、トレーニングに不十分なビデオデータである。
この問題に対処するため,現在の手法では,入力映像データの処理にほとんど注意が払われずに,機能レベルでのアルゴリズム開発に重点を置いている。
さらに、既存のフレームサンプリング戦略は、時間的および空間的な次元におけるクリティカルアクション情報を省略し、ビデオ利用効率にさらに影響を及ぼす可能性がある。
本稿では,時間選択器 (ts) と空間増幅器 (sa) を用いてタスク固有な時空間フレームサンプリングを実現するため,この課題に対処するために,少人数行動認識のための新しい映像フレームサンプリング器を提案する。
具体的には,ビデオフレームのグローバルな認識を得るために,まずビデオ全体を少ない計算コストでスキャンする。
TSは最も大きく貢献するトップTフレームの選択においてその役割を担っている。
SAは、サリエンシマップのガイダンスで臨界領域を増幅することにより、各フレームの識別情報を強調する。
さらに,タスク適応学習を採用し,対象のエピソードタスクに応じてサンプリング戦略を動的に調整する。
tsとsaの実装は、エンドツーエンドの最適化のために微分可能であり、提案するサンプル装置とほとんどの数少ないアクション認識方法とのシームレスな統合が容易である。
大規模な実験では、長期ビデオを含む様々なベンチマークのパフォーマンスが大幅に向上した。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Few-shot Action Recognition via Intra- and Inter-Video Information
Maximization [28.31541961943443]
本稿では,ビデオ情報最大化(VIM)という,アクション認識のための新しいフレームワークを提案する。
VIMは適応型時空間ビデオサンプリング器と時空間行動アライメントモデルを備える。
VIMは、限られたビデオデータからの映像情報の識別性を最大化するために機能する。
論文 参考訳(メタデータ) (2023-05-10T13:05:43Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。