論文の概要: Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream
- arxiv url: http://arxiv.org/abs/2208.12673v1
- Date: Thu, 25 Aug 2022 13:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:45:55.932415
- Title: Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream
- Title(参考訳): ビデオストリームのオンデバイス学習による弱教師付き時間行動定位の実現
- Authors: Yue Tang, Yawen Wu, Peipei Zhou, and Jingtong Hu
- Abstract要約: 長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
- 参考スコア(独自算出の注目度): 5.215681853828831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting actions in videos have been widely applied in on-device
applications. Practical on-device videos are always untrimmed with both action
and background. It is desirable for a model to both recognize the class of
action and localize the temporal position where the action happens. Such a task
is called temporal action location (TAL), which is always trained on the cloud
where multiple untrimmed videos are collected and labeled. It is desirable for
a TAL model to continuously and locally learn from new data, which can directly
improve the action detection precision while protecting customers' privacy.
However, it is non-trivial to train a TAL model, since tremendous video samples
with temporal annotations are required. However, annotating videos frame by
frame is exorbitantly time-consuming and expensive. Although weakly-supervised
TAL (W-TAL) has been proposed to learn from untrimmed videos with only
video-level labels, such an approach is also not suitable for on-device
learning scenarios. In practical on-device learning applications, data are
collected in streaming. Dividing such a long video stream into multiple video
segments requires lots of human effort, which hinders the exploration of
applying the TAL tasks to realistic on-device learning applications. To enable
W-TAL models to learn from a long, untrimmed streaming video, we propose an
efficient video learning approach that can directly adapt to new environments.
We first propose a self-adaptive video dividing approach with a contrast
score-based segment merging approach to convert the video stream into multiple
segments. Then, we explore different sampling strategies on the TAL tasks to
request as few labels as possible. To the best of our knowledge, we are the
first attempt to directly learn from the on-device, long video stream.
- Abstract(参考訳): ビデオ中のアクションの検出はデバイス上のアプリケーションに広く適用されている。
実際のオンデバイスビデオは、アクションとバックグラウンドの両方で常にトリミングされる。
モデルがアクションのクラスを認識し、アクションが発生する時間的位置を局所化するのが望ましい。
このようなタスクは、時間的アクションロケーション(TAL)と呼ばれ、複数の未トリミングビデオが収集されラベル付けされるクラウド上で常にトレーニングされる。
talモデルでは,ユーザのプライバシを保護しつつ,行動検出精度を直接向上できる新たなデータから,連続的かつ局所的に学習することが望ましい。
しかし,時間的制約を伴う膨大なビデオサンプルが必要となるため,talモデルのトレーニングは自明ではない。
しかし、動画フレームをフレーム単位でアノテートするのは、非常に時間と費用がかかる。
弱教師付きtal(w-tal)はビデオレベルラベルのみを用いた未トリミングビデオから学習するために提案されているが、デバイス上での学習シナリオにも適していない。
実際のオンデバイス学習アプリケーションでは、データはストリーミングで収集される。
このような長いビデオストリームを複数のビデオセグメントに分割するには、多くの人的労力が必要です。
そこで我々は,W-TALモデルで長時間のストリーミングビデオから学習できるように,新しい環境に適応できる効率的なビデオ学習手法を提案する。
まず,ビデオストリームを複数のセグメントに変換するために,コントラストスコアに基づくセグメントマージ手法を用いた自己適応型ビデオ分割手法を提案する。
次に,TALタスクの異なるサンプリング戦略を探索し,ラベルを可能な限り少なく要求する。
私たちの知る限りでは、私たちはデバイス上で長いビデオストリームから直接学習する最初の試みです。
関連論文リスト
- Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Few-Shot Temporal Action Localization with Query Adaptive Transformer [105.84328176530303]
TALの作品は、セグメントレベルのアノテーションを徹底した、多数のトレーニングビデオに依存している。
Few-shot TALは、モデルを1つのビデオで表される新しいクラスに適応させることを目的としている。
論文 参考訳(メタデータ) (2021-10-20T13:18:01Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。