論文の概要: Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition
- arxiv url: http://arxiv.org/abs/2311.17118v2
- Date: Fri, 24 May 2024 15:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 23:36:34.787614
- Title: Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition
- Title(参考訳): 映像行動認識のためのエンド・ツー・エンド・ラーニングの弱化に向けて
- Authors: Jiaming Zhou, Hanjun Li, Kun-Yu Lin, Junwei Liang,
- Abstract要約: この研究は、ロングビデオ上で認識モデルをトレーニングするための、弱い教師付きエンドツーエンドフレームワークを構築することを目的としている。
提案するフレームワーク,すなわちAdaptFocusは,情報的アクションクリップに適応的にフォーカスするために,アクションの発生頻度を推定する。
提案するAdaptFocusフレームワークの有効性は,3つの長ビデオデータセットで実証されている。
- 参考スコア(独自算出の注目度): 9.7642886315723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing end-to-end action recognition models on long videos is fundamental and crucial for long-video action understanding. Due to the unaffordable cost of end-to-end training on the whole long videos, existing works generally train models on short clips trimmed from long videos. However, this ``trimming-then-training'' practice requires action interval annotations for clip-level supervision, i.e., knowing which actions are trimmed into the clips. Unfortunately, collecting such annotations is very expensive and prevents model training at scale. To this end, this work aims to build a weakly supervised end-to-end framework for training recognition models on long videos, with only video-level action category labels. Without knowing the precise temporal locations of actions in long videos, our proposed weakly supervised framework, namely AdaptFocus, estimates where and how likely the actions will occur to adaptively focus on informative action clips for end-to-end training. The effectiveness of the proposed AdaptFocus framework is demonstrated on three long-video datasets. Furthermore, for downstream long-video tasks, our AdaptFocus framework provides a weakly supervised feature extraction pipeline for extracting more robust long-video features, such that the state-of-the-art methods on downstream tasks are significantly advanced. We will release the code and models.
- Abstract(参考訳): ロングビデオ上でのエンド・ツー・エンドのアクション認識モデルの開発は、ロングビデオのアクション理解に不可欠かつ不可欠である。
長いビデオ全体におけるエンドツーエンドのトレーニングのコストが不都合なため、既存の作品は通常、長いビデオから切り離された短いクリップでモデルを訓練する。
しかし、この‘トリミングトレーニング’のプラクティスは、クリップレベルの監視のためのアクションインターバルアノテーション、すなわち、どのアクションがクリップにトリミングされているかを知る必要がある。
残念ながら、このようなアノテーションの収集は非常に高価で、大規模なモデルのトレーニングを妨げます。
この目的は、ビデオレベルのアクションカテゴリラベルのみを使用して、長いビデオ上で認識モデルをトレーニングするための、弱い教師付きエンドツーエンドフレームワークを構築することである。
長編ビデオにおけるアクションの正確な時間的位置を知ることなく、我々の提案する弱い教師付きフレームワーク、すなわちAdaptFocusは、アクションがどこで、どのようにして、エンドツーエンドのトレーニングのための情報的アクションクリップに適応的にフォーカスするかを見積もる。
提案するAdaptFocusフレームワークの有効性は,3つの長ビデオデータセットで実証されている。
さらに、下流の長ビデオタスクに対して、当社のAdaptFocusフレームワークは、より堅牢な長ビデオ特徴を抽出するための弱教師付き機能抽出パイプラインを提供する。
コードとモデルをリリースします。
関連論文リスト
- Online pre-training with long-form videos [0.0]
事前学習の3つの方法(マスクド画像モデリング、コントラスト学習、知識蒸留)について検討する。
コントラスト学習によるオンライン事前学習は、下流タスクで最高のパフォーマンスを示した。
以上の結果から,長ビデオからの学習は,短ビデオを用いた行動認識に有用であることが示唆された。
論文 参考訳(メタデータ) (2024-08-28T09:07:40Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。