論文の概要: Few-Shot Action Localization without Knowing Boundaries
- arxiv url: http://arxiv.org/abs/2106.04150v1
- Date: Tue, 8 Jun 2021 07:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:55:34.653940
- Title: Few-Shot Action Localization without Knowing Boundaries
- Title(参考訳): 境界を知らない極小アクションローカライズ
- Authors: Ting-Ting Xie, Christos Tzelepis, Fan Fu, Ioannis Patras
- Abstract要約: 対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
- 参考スコア(独自算出の注目度): 9.959844922120523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to localize actions in long, cluttered, and untrimmed videos is a
hard task, that in the literature has typically been addressed assuming the
availability of large amounts of annotated training samples for each class --
either in a fully-supervised setting, where action boundaries are known, or in
a weakly-supervised setting, where only class labels are known for each video.
In this paper, we go a step further and show that it is possible to learn to
localize actions in untrimmed videos when a) only one/few trimmed examples of
the target action are available at test time, and b) when a large collection of
videos with only class label annotation (some trimmed and some weakly annotated
untrimmed ones) are available for training; with no overlap between the classes
used during training and testing. To do so, we propose a network that learns to
estimate Temporal Similarity Matrices (TSMs) that model a fine-grained
similarity pattern between pairs of videos (trimmed or untrimmed), and uses
them to generate Temporal Class Activation Maps (TCAMs) for seen or unseen
classes. The TCAMs serve as temporal attention mechanisms to extract
video-level representations of untrimmed videos, and to temporally localize
actions at test time. To the best of our knowledge, we are the first to propose
a weakly-supervised, one/few-shot action localization network that can be
trained in an end-to-end fashion. Experimental results on THUMOS14 and
ActivityNet1.2 datasets, show that our method achieves performance comparable
or better to state-of-the-art fully-supervised, few-shot learning methods.
- Abstract(参考訳): アクションのローカライズを長く、ごちゃごちゃで、そして見当たらないビデオで学ぶことは難しい作業であり、文学では、各クラスに大量の注釈付きトレーニングサンプルが利用可能であることを前提として、一般的に対処されてきた。
本稿では、さらに一歩進めて、a) 対象アクションの1/2のトリミング例のみをテスト時に利用できる場合、b) クラスラベルアノテーションのみを持つビデオの大規模なコレクション(トリミングと弱アノテーション付き未トリミング)をトレーニング用に利用できる場合、そして、トレーニングやテストで使用されるクラス間に重複がない場合に、未トリミングビデオにおけるアクションのローカライズを学習できることを示します。
そこで本研究では,ビデオの対(トリミング,未トリミング)間の粒度の類似度パターンをモデル化する時間的類似度行列(tsms)を推定し,それを用いて視・視認できないクラスに対して時間的クラス活性化マップ(tcam)を生成するネットワークを提案する。
TCAMは、ビデオレベルのビデオ表現を抽出し、テスト時の動作を時間的にローカライズするための時間的注意機構として機能する。
我々の知る限りでは、我々は、エンドツーエンドでトレーニングできる弱い教師付きワンショットアクションローカライゼーションネットワークを最初に提案する。
THUMOS14およびActivityNet1.2データセットによる実験結果から,本手法は最先端の完全教師付き数ショット学習手法に匹敵する性能を達成することが示された。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Learning to Localize Actions from Moments [153.54638582696128]
本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
論文 参考訳(メタデータ) (2020-08-31T16:03:47Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - TAEN: Temporal Aware Embedding Network for Few-Shot Action Recognition [10.07962673311661]
短時間の動作認識のためのTAEN(Aware Temporal Embedding Network)を提案する。
映像分類と時間的行動検出の2つの課題に対するTAENの有効性を実証した。
ほんの数枚の完全に接続されたレイヤのトレーニングでは、いくつかのショットビデオ分類と時間的検出タスクの両方で、先行技術に匹敵する結果に到達します。
論文 参考訳(メタデータ) (2020-04-21T16:32:10Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。