論文の概要: Improving Weakly Supervised Temporal Action Localization by Exploiting Multi-resolution Information in Temporal Domain
- arxiv url: http://arxiv.org/abs/2506.18261v1
- Date: Mon, 23 Jun 2025 03:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.832913
- Title: Improving Weakly Supervised Temporal Action Localization by Exploiting Multi-resolution Information in Temporal Domain
- Title(参考訳): 時間領域におけるマルチレゾリューション情報の導入による時間的行動局所化の弱さの改善
- Authors: Rui Su, Dong Xu, Luping Zhou, Wanli Ouyang,
- Abstract要約: 時間領域における多重解像度情報を完全に活用するための2段階の手法を提案する。
第1段階では、外観と動きの流れの両方に基づいて、信頼できる初期フレームレベルの擬似ラベルを生成する。
第2段階では、疑似ラベルを反復的に洗練し、信頼度の高い疑似ラベルを持つ選択されたフレームの集合を用いてニューラルネットワークを訓練する。
- 参考スコア(独自算出の注目度): 84.73693644211596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised temporal action localization is a challenging task as only the video-level annotation is available during the training process. To address this problem, we propose a two-stage approach to fully exploit multi-resolution information in the temporal domain and generate high quality frame-level pseudo labels based on both appearance and motion streams. Specifically, in the first stage, we generate reliable initial frame-level pseudo labels, and in the second stage, we iteratively refine the pseudo labels and use a set of selected frames with highly confident pseudo labels to train neural networks and better predict action class scores at each frame. We fully exploit temporal information at multiple scales to improve temporal action localization performance. Specifically, in order to obtain reliable initial frame-level pseudo labels, in the first stage, we propose an Initial Label Generation (ILG) module, which leverages temporal multi-resolution consistency to generate high quality class activation sequences (CASs), which consist of a number of sequences with each sequence measuring how likely each video frame belongs to one specific action class. In the second stage, we propose a Progressive Temporal Label Refinement (PTLR) framework. In our PTLR framework, two networks called Network-OTS and Network-RTS, which are respectively used to generate CASs for the original temporal scale and the reduced temporal scales, are used as two streams (i.e., the OTS stream and the RTS stream) to refine the pseudo labels in turn. By this way, the multi-resolution information in the temporal domain is exchanged at the pseudo label level, and our work can help improve each stream (i.e., the OTS/RTS stream) by exploiting the refined pseudo labels from another stream (i.e., the RTS/OTS stream).
- Abstract(参考訳): トレーニングプロセス中にビデオレベルのアノテーションしか利用できないため、微弱に監督された時間的アクションのローカライゼーションは難しい作業である。
この問題に対処するため,時間領域におけるマルチレゾリューション情報を完全に活用する2段階の手法を提案し,外観と動作ストリームの両方に基づいて高品質なフレームレベルの擬似ラベルを生成する。
具体的には,第1段階では信頼性の高い初期フレームレベルの擬似ラベルを生成し,第2段階では疑似ラベルを反復的に改良し,信頼性の高い擬似ラベルを持つ選択されたフレームの集合を用いてニューラルネットワークをトレーニングし,各フレームでのアクションクラススコアをより正確に予測する。
我々は、時間的行動ローカライゼーション性能を改善するために、複数のスケールで時間的情報を完全に活用する。
具体的には、信頼性の高い初期フレームレベルの擬似ラベルを得るために、第1段階では、時間的多重解像度一貫性を利用して、各ビデオフレームが1つの特定のアクションクラスに属する確率を測定する複数のシーケンスからなる高品質なクラスアクティベーションシーケンス(CAS)を生成する初期ラベル生成(ILG)モジュールを提案する。
第2段階では,プログレッシブ・テンポラル・ラベル・リファインメント(PTLR)フレームワークを提案する。
PTLR フレームワークでは,ネットワーク-OTS と Network-RTS という2つのネットワークがそれぞれ,元の時間スケールと縮小時間スケールのCASを生成するために使用され,その2つのストリーム(すなわち OTS ストリームとRTS ストリーム)として,擬似ラベルを改良するために使用される。
これにより、時間領域内の多重解像度情報を擬似ラベルレベルで交換し、他のストリーム(すなわちRTS/OTSストリーム)から精製された擬似ラベルを利用することで、各ストリーム(すなわちOTS/RTSストリーム)を改善することができる。
関連論文リスト
- Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。
シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文 参考訳(メタデータ) (2024-08-22T15:13:27Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Timestamp-Supervised Action Segmentation from the Perspective of
Clustering [12.661218632080207]
既存のほとんどの手法は、各ビデオ内のすべてのフレームに対して擬似ラベルを生成し、セグメンテーションモデルを訓練する。
本稿では,クラスタリングの観点から,以下の2つの部分を含む新しいフレームワークを提案する。
反復クラスタリングは、クラスタリングによって擬似ラベルをあいまいな間隔に反復的に伝播し、擬似ラベルシーケンスを更新してモデルをトレーニングする。
論文 参考訳(メタデータ) (2022-12-22T13:35:00Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Learnable Dynamic Temporal Pooling for Time Series Classification [22.931314501371805]
本稿では,セグメントレベルの特徴を集約することにより,隠れ表現の時間的サイズを低減する動的時間的プーリング(DTP)手法を提案する。
時系列全体の分割を複数のセグメントに分割するために,動的時間ゆがみ(dtw)を用いて各時間点を時間順に整列し,セグメントの原型的特徴を示す。
完全連結層と組み合わせたDTP層は、入力時系列内の時間的位置を考慮したさらなる識別的特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-04-02T08:58:44Z) - Dual-Refinement: Joint Label and Feature Refinement for Unsupervised
Domain Adaptive Person Re-Identification [51.98150752331922]
Unsupervised Domain Adaptive (UDA) Person Re-identification (再ID) は、ターゲットドメインデータのラベルが欠落しているため、難しい作業です。
オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズにおける特徴を共同で改良する,デュアルリファインメントと呼ばれる新しいアプローチを提案する。
本手法は最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-26T07:35:35Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。