論文の概要: Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature
- arxiv url: http://arxiv.org/abs/2303.12332v3
- Date: Sun, 24 Dec 2023 05:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:08:03.188897
- Title: Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature
- Title(参考訳): Snippet-Feature 推定による時間的行動位置推定
- Authors: Wulian Yun, Mengshi Qi, Chuanming Wang, Huadong Ma
- Abstract要約: 弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
- 参考スコア(独自算出の注目度): 26.7937345622207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization aims to locate action regions
and identify action categories in untrimmed videos simultaneously by taking
only video-level labels as the supervision. Pseudo label generation is a
promising strategy to solve the challenging problem, but the current methods
ignore the natural temporal structure of the video that can provide rich
information to assist such a generation process. In this paper, we propose a
novel weakly-supervised temporal action localization method by inferring
salient snippet-feature. First, we design a saliency inference module that
exploits the variation relationship between temporal neighbor snippets to
discover salient snippet-features, which can reflect the significant dynamic
change in the video. Secondly, we introduce a boundary refinement module that
enhances salient snippet-features through the information interaction unit.
Then, a discrimination enhancement module is introduced to enhance the
discriminative nature of snippet-features. Finally, we adopt the refined
snippet-features to produce high-fidelity pseudo labels, which could be used to
supervise the training of the action localization network. Extensive
experiments on two publicly available datasets, i.e., THUMOS14 and ActivityNet
v1.3, demonstrate our proposed method achieves significant improvements
compared to the state-of-the-art methods.
- Abstract(参考訳): 弱教師付き時間的行動ローカライゼーションは、ビデオレベルラベルのみを監督として、アクション領域を特定し、未トリミングビデオ内のアクションカテゴリを同時に特定することを目的としている。
疑似ラベル生成は課題を解決するための有望な戦略であるが、現在の手法では映像の自然な時間構造を無視し、そのような生成プロセスを支援するために豊富な情報を提供できる。
本稿では,salient snippet-featureを推定し,新しい弱教師付き時間的行動定位法を提案する。
まず, 時間的近傍スニペット間の変動関係を利用して, 映像中の顕著な動的変化を反映した, 顕著なスニペット特徴を検出するサリエンシ推論モジュールを設計する。
第2に,情報インタラクションユニットを通じて,スニペット機能を強化した境界改良モジュールを提案する。
そして、スニペット特徴の識別性を高めるために識別強化モジュールを導入する。
最後に,高信頼な擬似ラベルを生成するために,洗練されたスニペット機能を採用し,アクションローカライズネットワークのトレーニングを監督する。
THUMOS14とActivityNet v1.3の2つの公開データセットに対する大規模な実験により、提案手法は最先端の手法と比較して大幅に改善されていることを示す。
関連論文リスト
- Unsupervised Temporal Action Localization via Self-paced Incremental
Learning [57.55765505856969]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの漸進学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - Weakly Supervised Temporal Action Localization via Representative
Snippet Knowledge Propagation [36.86505596138256]
微弱に監督された時間的行動の局所化は、行動の時間的境界をローカライズすることを目的としており、ビデオレベルのカテゴリラベルのみを用いてカテゴリを同時に識別することを目的としている。
既存の多くの手法は、分類とローカライゼーションの相違をブリッジするために擬似ラベルを生成するが、通常は擬似ラベル生成に限定した文脈情報のみを使用する。
提案手法では,ビデオスニペット間で情報を伝達し,より優れた擬似ラベルを生成するために,各ビデオ中の代表スニペットをマイニングする。
論文 参考訳(メタデータ) (2022-03-06T09:53:55Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Action Shuffling for Weakly Supervised Temporal Localization [22.43209053892713]
本稿では,行動の秩序感応性と位置感応性を解析する。
それらを自己拡張学習フレームワークに具体化し、弱教師付きアクションローカライゼーション性能を改善する。
論文 参考訳(メタデータ) (2021-05-10T09:05:58Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。