論文の概要: Background-Click Supervision for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2111.12449v1
- Date: Wed, 24 Nov 2021 12:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:31:07.059251
- Title: Background-Click Supervision for Temporal Action Localization
- Title(参考訳): 時間的行動局所化のための背景クリック制御
- Authors: Le Yang, Junwei Han, Tao Zhao, Tianwei Lin, Dingwen Zhang, Jianxin
Chen
- Abstract要約: 時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
- 参考スコア(独自算出の注目度): 82.4203995101082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised temporal action localization aims at learning the
instance-level action pattern from the video-level labels, where a significant
challenge is action-context confusion. To overcome this challenge, one recent
work builds an action-click supervision framework. It requires similar
annotation costs but can steadily improve the localization performance when
compared to the conventional weakly supervised methods. In this paper, by
revealing that the performance bottleneck of the existing approaches mainly
comes from the background errors, we find that a stronger action localizer can
be trained with labels on the background video frames rather than those on the
action frames. To this end, we convert the action-click supervision to the
background-click supervision and develop a novel method, called BackTAL.
Specifically, BackTAL implements two-fold modeling on the background video
frames, i.e. the position modeling and the feature modeling. In position
modeling, we not only conduct supervised learning on the annotated video frames
but also design a score separation module to enlarge the score differences
between the potential action frames and backgrounds. In feature modeling, we
propose an affinity module to measure frame-specific similarities among
neighboring frames and dynamically attend to informative neighbors when
calculating temporal convolution. Extensive experiments on three benchmarks are
conducted, which demonstrate the high performance of the established BackTAL
and the rationality of the proposed background-click supervision. Code is
available at https://github.com/VividLe/BackTAL.
- Abstract(参考訳): 時間的行動ローカライゼーションは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
この課題を克服するために、最近のある作業はアクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存手法の性能ボトルネックが主にバックグラウンドエラーによるものであることを明らかにすることで,アクションフレームよりも背景ビデオフレームにラベルを付けてより強力なアクションローカライザをトレーニングできることを見出した。
この目的のために、アクションクリックの監督を背景クリックの監督に変換し、backtalと呼ばれる新しい方法を開発する。
具体的には、backtalは背景ビデオフレーム、すなわち位置モデリングと特徴モデリングの2次元モデリングを実装している。
位置モデリングでは、アノテーション付きビデオフレーム上で教師あり学習を行うだけでなく、潜在的なアクションフレームと背景とのスコア差を増大させるスコア分離モジュールを設計する。
特徴モデリングでは,隣接フレーム間のフレーム固有の類似度を測定し,時間的畳み込みを計算する際に動的に隣接フレームに応答する親和性モジュールを提案する。
3つのベンチマーク実験を行い、確立されたBackTALの性能と、提案したバックグラウンドクリック監視の合理性を示す。
コードはhttps://github.com/VividLe/BackTAL.comで入手できる。
関連論文リスト
- TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Structured Attention Composition for Temporal Action Localization [99.66510088698051]
マルチモーダル特徴学習の観点から時間的行動ローカライゼーションについて検討する。
従来の注目とは異なり、提案されたモジュールはフレームの注意とモダリティの注意を独立して推測しない。
提案した構造化された注目合成モジュールは、既存のアクションローカライゼーションフレームワークにプラグイン・アンド・プレイモジュールとしてデプロイすることができる。
論文 参考訳(メタデータ) (2022-05-20T04:32:09Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Retrieving and Highlighting Action with Spatiotemporal Reference [15.283548146322971]
本稿では,ビデオ中のアクションを共同で検索し,時間的にハイライトするフレームワークを提案する。
我々の研究は、アクションハイライトのハイライトという新しいタスクを取り上げ、アンビデオ環境でのアクションの発生場所とタイミングを視覚化する。
論文 参考訳(メタデータ) (2020-05-19T03:12:31Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。