論文の概要: Weakly-Supervised Temporal Action Localization by Inferring
Snippet-Feature Affinity
- arxiv url: http://arxiv.org/abs/2303.12332v1
- Date: Wed, 22 Mar 2023 06:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 15:11:12.045326
- Title: Weakly-Supervised Temporal Action Localization by Inferring
Snippet-Feature Affinity
- Title(参考訳): Snippet-Feature Affinityの推測による時間的行動位置推定
- Authors: Wulian Yun, Mengshi Qi, Chuanming Wang, Huadong Ma
- Abstract要約: そこで本研究では,スニペット親和性を推定し,時間的局所化を弱く制御する手法を提案する。
まず,時間的近傍スニペット間の親和性関係を利用した親和性推論モジュールを設計する。
次に,スニペットの識別特性を高めることで,粗いラベルを洗練する情報対話モジュールを提案する。
最後に、情報対話モジュールから生成された高ネイティブな疑似忠実ラベルを用いて、アクションローカライゼーションネットワークのトレーニングを監督する。
- 参考スコア(独自算出の注目度): 27.91974570315097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization aims to locate action regions
and identify action categories in untrimmed videos, only taking video-level
labels as the supervised information. Pseudo label generation is a promising
strategy to solve the challenging problem, but most existing methods are
limited to employing snippet-wise classification results to guide the
generation, and they ignore that the natural temporal structure of the video
can also provide rich information to assist such a generation process. In this
paper, we propose a novel weakly-supervised temporal action localization method
by inferring snippet-feature affinity. First, we design an affinity inference
module that exploits the affinity relationship between temporal neighbor
snippets to generate initial coarse pseudo labels. Then, we introduce an
information interaction module that refines the coarse labels by enhancing the
discriminative nature of snippet-features through exploring intra- and
inter-video relationships. Finally, the high-fidelity pseudo labels generated
from the information interaction module are used to supervise the training of
the action localization network. Extensive experiments on two publicly
available datasets, i.e., THUMOS14 and ActivityNet v1.3, demonstrate our
proposed method achieves significant improvements compared to the
state-of-the-art methods.
- Abstract(参考訳): 弱い教師付き時間的アクションローカライズ(weaklysupervised temporal action localization)は、アクション領域の特定と、未トリミングビデオ内のアクションカテゴリの特定を目的としている。
疑似ラベル生成は課題を解決するための有望な戦略であるが、既存の手法のほとんどは、生成を導くためにスニペットワイズ分類結果を使うことに制限されており、ビデオの自然な時間構造もまた、そのような生成プロセスを支援するためにリッチな情報を提供できることを無視している。
本稿では,スニペット特徴の親和性を推定する新しい弱教師付き時間的行動定位法を提案する。
まず,時間近傍スニペット間の親和性関係を利用して初期粗い擬似ラベルを生成する親和性推論モジュールを設計する。
次に,スニペット特徴の識別性を高め,映像内および映像間関係を探索することで粗いラベルを洗練する情報対話モジュールを提案する。
最後に、情報対話モジュールから生成された高忠実度擬似ラベルを用いて、アクションローカライゼーションネットワークのトレーニングを監督する。
THUMOS14とActivityNet v1.3の2つの公開データセットに対する大規模な実験により、提案手法は最先端の手法と比較して大幅に改善されていることを示す。
関連論文リスト
- Unsupervised Temporal Action Localization via Self-paced Incremental
Learning [57.55765505856969]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの漸進学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - Weakly Supervised Temporal Action Localization via Representative
Snippet Knowledge Propagation [36.86505596138256]
微弱に監督された時間的行動の局所化は、行動の時間的境界をローカライズすることを目的としており、ビデオレベルのカテゴリラベルのみを用いてカテゴリを同時に識別することを目的としている。
既存の多くの手法は、分類とローカライゼーションの相違をブリッジするために擬似ラベルを生成するが、通常は擬似ラベル生成に限定した文脈情報のみを使用する。
提案手法では,ビデオスニペット間で情報を伝達し,より優れた擬似ラベルを生成するために,各ビデオ中の代表スニペットをマイニングする。
論文 参考訳(メタデータ) (2022-03-06T09:53:55Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Action Shuffling for Weakly Supervised Temporal Localization [22.43209053892713]
本稿では,行動の秩序感応性と位置感応性を解析する。
それらを自己拡張学習フレームワークに具体化し、弱教師付きアクションローカライゼーション性能を改善する。
論文 参考訳(メタデータ) (2021-05-10T09:05:58Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。