Fugu-MT 論文翻訳(概要): AdaFocus: Towards End-to-end Weakly Supervised Learning for Long-Video Action Understanding

論文の概要: AdaFocus: Towards End-to-end Weakly Supervised Learning for Long-Video Action Understanding

arxiv url: http://arxiv.org/abs/2311.17118v1
Date: Tue, 28 Nov 2023 12:30:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 23:53:39.174283
Title: AdaFocus: Towards End-to-end Weakly Supervised Learning for Long-Video Action Understanding
Title（参考訳）: adafocus: ロングビデオアクション理解のためのエンド・ツー・エンドの弱い教師付き学習に向けて
Authors: Jiaming Zhou, Hanjun Li, Kun-Yu Lin, Junwei Liang
Abstract要約: 本稿では,長時間動作理解タスクのための弱教師付きフレームワークを提案する。 AdaFocusは、アクションのスパイクアクション性と時間的位置を推定し、アクションクリップに適応的にフォーカスすることができる。 3つの長ビデオデータセットの実験は、その有効性を示している。
参考スコア（独自算出の注目度）: 10.666783868280174
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing end-to-end models for long-video action understanding tasks presents significant computational and memory challenges. Existing works generally build models on long-video features extracted by off-the-shelf action recognition models, which are trained on short-video datasets in different domains, making the extracted features suffer domain discrepancy. To avoid this, action recognition models can be end-to-end trained on clips, which are trimmed from long videos and labeled using action interval annotations. Such fully supervised annotations are expensive to collect. Thus, a weakly supervised method is needed for long-video action understanding at scale. Under the weak supervision setting, action labels are provided for the whole video without precise start and end times of the action clip. To this end, we propose an AdaFocus framework. AdaFocus estimates the spike-actionness and temporal positions of actions, enabling it to adaptively focus on action clips that facilitate better training without the need for precise annotations. Experiments on three long-video datasets show its effectiveness. Remarkably, on two of datasets, models trained with AdaFocus under weak supervision outperform those trained under full supervision. Furthermore, we form a weakly supervised feature extraction pipeline with our AdaFocus, which enables significant improvements on three long-video action understanding tasks.
Abstract（参考訳）: 長時間ビデオのアクション理解タスクのためのエンドツーエンドモデルの開発は、計算とメモリに大きな課題をもたらす。既存の作業は、通常、オフザシェルフアクション認識モデルによって抽出された長ビデオ機能のモデルを構築し、異なるドメインのショートビデオデータセットでトレーニングされ、抽出された機能はドメインの相違を被る。これを避けるために、アクション認識モデルは、長いビデオからトリミングされ、アクションインターバルアノテーションを使用してラベル付けされるクリップでエンドツーエンドにトレーニングすることができる。このような完全に管理されたアノテーションは収集に費用がかかる。したがって, 大規模ビデオの動作理解には, 弱い教師付き手法が必要となる。弱い監督設定では、アクションクリップの開始時刻と終了時刻を正確に指定することなく、ビデオ全体に対してアクションラベルを提供する。そこで我々は,AdaFocusフレームワークを提案する。 AdaFocusは、アクションのスパイクアクション性と時間的位置を推定し、正確なアノテーションを必要とせずに、より良いトレーニングを容易にするアクションクリップに適応的にフォーカスすることができる。 3つの長ビデオデータセットの実験は、その有効性を示している。驚くべきことに、2つのデータセットで、弱い監督下でadafocusでトレーニングされたモデルは、完全な監督の下でトレーニングされたモデルよりも優れています。さらに, adafocus を用いた弱い教師付き特徴抽出パイプラインを構築し, 3つの長ビデオアクション理解タスクにおいて大幅な改善が可能となった。

関連論文リスト

LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders [9.996331443220651]
長ビデオマスク埋め込みオートエンコーダ(LV-MAE)を紹介する。 LV-MAEは長期表現のための自己教師型学習フレームワークである。 3つの長ビデオベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2025-04-04T14:56:27Z)
$\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation [19.616624959353697]
$infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
論文参考訳（メタデータ） (2025-01-31T12:45:46Z)
Online pre-training with long-form videos [0.0]
事前学習の3つの方法(マスクド画像モデリング、コントラスト学習、知識蒸留)について検討する。コントラスト学習によるオンライン事前学習は、下流タスクで最高のパフォーマンスを示した。以上の結果から,長ビデオからの学習は,短ビデオを用いた行動認識に有用であることが示唆された。
論文参考訳（メタデータ） (2024-08-28T09:07:40Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文参考訳（メタデータ） (2023-09-20T18:13:32Z)
HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文参考訳（メタデータ） (2023-01-05T21:53:19Z)
Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2022-11-30T14:43:35Z)
Enabling Weakly-Supervised Temporal Action Localization from On-Device Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文参考訳（メタデータ） (2022-08-25T13:41:03Z)
Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文参考訳（メタデータ） (2021-04-02T18:59:09Z)
Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文参考訳（メタデータ） (2021-03-28T22:18:14Z)
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文参考訳（メタデータ） (2020-11-23T15:40:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。