論文の概要: AdaFocus: Towards End-to-end Weakly Supervised Learning for Long-Video
Action Understanding
- arxiv url: http://arxiv.org/abs/2311.17118v1
- Date: Tue, 28 Nov 2023 12:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 23:53:39.174283
- Title: AdaFocus: Towards End-to-end Weakly Supervised Learning for Long-Video
Action Understanding
- Title(参考訳): adafocus: ロングビデオアクション理解のためのエンド・ツー・エンドの弱い教師付き学習に向けて
- Authors: Jiaming Zhou, Hanjun Li, Kun-Yu Lin, Junwei Liang
- Abstract要約: 本稿では,長時間動作理解タスクのための弱教師付きフレームワークを提案する。
AdaFocusは、アクションのスパイクアクション性と時間的位置を推定し、アクションクリップに適応的にフォーカスすることができる。
3つの長ビデオデータセットの実験は、その有効性を示している。
- 参考スコア(独自算出の注目度): 10.666783868280174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing end-to-end models for long-video action understanding tasks
presents significant computational and memory challenges. Existing works
generally build models on long-video features extracted by off-the-shelf action
recognition models, which are trained on short-video datasets in different
domains, making the extracted features suffer domain discrepancy. To avoid
this, action recognition models can be end-to-end trained on clips, which are
trimmed from long videos and labeled using action interval annotations. Such
fully supervised annotations are expensive to collect. Thus, a weakly
supervised method is needed for long-video action understanding at scale. Under
the weak supervision setting, action labels are provided for the whole video
without precise start and end times of the action clip. To this end, we propose
an AdaFocus framework. AdaFocus estimates the spike-actionness and temporal
positions of actions, enabling it to adaptively focus on action clips that
facilitate better training without the need for precise annotations.
Experiments on three long-video datasets show its effectiveness. Remarkably, on
two of datasets, models trained with AdaFocus under weak supervision outperform
those trained under full supervision. Furthermore, we form a weakly supervised
feature extraction pipeline with our AdaFocus, which enables significant
improvements on three long-video action understanding tasks.
- Abstract(参考訳): 長時間ビデオのアクション理解タスクのためのエンドツーエンドモデルの開発は、計算とメモリに大きな課題をもたらす。
既存の作業は、通常、オフザシェルフアクション認識モデルによって抽出された長ビデオ機能のモデルを構築し、異なるドメインのショートビデオデータセットでトレーニングされ、抽出された機能はドメインの相違を被る。
これを避けるために、アクション認識モデルは、長いビデオからトリミングされ、アクションインターバルアノテーションを使用してラベル付けされるクリップでエンドツーエンドにトレーニングすることができる。
このような完全に管理されたアノテーションは収集に費用がかかる。
したがって, 大規模ビデオの動作理解には, 弱い教師付き手法が必要となる。
弱い監督設定では、アクションクリップの開始時刻と終了時刻を正確に指定することなく、ビデオ全体に対してアクションラベルを提供する。
そこで我々は,AdaFocusフレームワークを提案する。
AdaFocusは、アクションのスパイクアクション性と時間的位置を推定し、正確なアノテーションを必要とせずに、より良いトレーニングを容易にするアクションクリップに適応的にフォーカスすることができる。
3つの長ビデオデータセットの実験は、その有効性を示している。
驚くべきことに、2つのデータセットで、弱い監督下でadafocusでトレーニングされたモデルは、完全な監督の下でトレーニングされたモデルよりも優れています。
さらに, adafocus を用いた弱い教師付き特徴抽出パイプラインを構築し, 3つの長ビデオアクション理解タスクにおいて大幅な改善が可能となった。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Distill and Collect for Semi-Supervised Temporal Action Segmentation [0.0]
本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用する時間的行動分割タスクを提案する。
提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。
また,本モデルでは,後に時間的制約として使用されるアクション順序を予測し,無注釈ビデオの監督の欠如に対処するため,フレームラベルを推定する。
論文 参考訳(メタデータ) (2022-11-02T17:34:04Z) - Tragedy Plus Time: Capturing Unintended Human Activities from
Weakly-labeled Videos [31.1632730473261]
W-Oopsは2100の意図しない人間のアクションビデオで構成され、44のゴール指向と30の意図しないビデオレベルのアクティビティラベルが人間のアノテーションを通じて収集されている。
本稿では,映像中の意図しない時間領域だけでなく,目標指向の局所化のための弱教師付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-28T14:56:43Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。