論文の概要: Weakly Supervised Action Selection Learning in Video
- arxiv url: http://arxiv.org/abs/2105.02439v1
- Date: Thu, 6 May 2021 04:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:25:57.099717
- Title: Weakly Supervised Action Selection Learning in Video
- Title(参考訳): ビデオにおける弱教師付き行動選択学習
- Authors: Junwei Ma, Satya Krishna Gorti, Maksims Volkovs, Guangwei Yu
- Abstract要約: 行動選択学習(Action Selection Learning)は、行動の一般的な概念、つまり「行動性」をとらえるために提案される。
我々は、ASLがTHUMOS-14とActivityNet-1.2の2つの一般的なベンチマークのベースラインを上回り、10.3%と5.7%の相対的な改善を示した。
- 参考スコア(独自算出の注目度): 8.337649176647645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing actions in video is a core task in computer vision. The weakly
supervised temporal localization problem investigates whether this task can be
adequately solved with only video-level labels, significantly reducing the
amount of expensive and error-prone annotation that is required. A common
approach is to train a frame-level classifier where frames with the highest
class probability are selected to make a video-level prediction. Frame level
activations are then used for localization. However, the absence of frame-level
annotations cause the classifier to impart class bias on every frame. To
address this, we propose the Action Selection Learning (ASL) approach to
capture the general concept of action, a property we refer to as "actionness".
Under ASL, the model is trained with a novel class-agnostic task to predict
which frames will be selected by the classifier. Empirically, we show that ASL
outperforms leading baselines on two popular benchmarks THUMOS-14 and
ActivityNet-1.2, with 10.3% and 5.7% relative improvement respectively. We
further analyze the properties of ASL and demonstrate the importance of
actionness. Full code for this work is available here:
https://github.com/layer6ai-labs/ASL.
- Abstract(参考訳): ビデオ内のアクションのローカライズは、コンピュータビジョンのコアタスクである。
弱教師付き時間的局所化問題は、このタスクがビデオレベルのラベルだけで適切に解決できるかどうかを調査し、必要となる高価でエラーの少ないアノテーションの量を著しく削減する。
一般的なアプローチは、高いクラス確率のフレームを選択してビデオレベルの予測を行うフレームレベル分類器の訓練である。
フレームレベルのアクティベーションは、ローカライゼーションに使用される。
しかし、フレームレベルのアノテーションがないため、分類器は各フレームにクラスバイアスを与える。
そこで本研究では,アクション選択学習(ASL)アプローチを提案する。
ASLでは、モデルはクラスに依存しない新しいタスクで訓練され、どのフレームが分類器によって選択されるかを予測する。
ASL は2つのベンチマーク THUMOS-14 と ActivityNet-1.2 において,それぞれ 10.3% と 5.7% の相対的な改善を達成している。
さらに, ASLの特性を解析し, 行動の重要性を実証する。
この作業の完全なコードは、https://github.com/layer6ai-labs/aslで入手できる。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Few-Shot Temporal Action Localization with Query Adaptive Transformer [105.84328176530303]
TALの作品は、セグメントレベルのアノテーションを徹底した、多数のトレーニングビデオに依存している。
Few-shot TALは、モデルを1つのビデオで表される新しいクラスに適応させることを目的としている。
論文 参考訳(メタデータ) (2021-10-20T13:18:01Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。