論文の概要: JCDNet: Joint of Common and Definite phases Network for Weakly
Supervised Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2303.17294v1
- Date: Thu, 30 Mar 2023 11:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:38:31.460580
- Title: JCDNet: Joint of Common and Definite phases Network for Weakly
Supervised Temporal Action Localization
- Title(参考訳): JCDNet:時間的行動局所化のための共通・定相ネットワークの統合
- Authors: Yifu Liu, Xiaoxia Li, Zhiling Luo, Wei Zhou
- Abstract要約: 弱教師付き時間的アクションローカライゼーションは、ビデオレベルの監督のみで、未トリミングビデオ内のアクションインスタンスをローカライズすることを目的としている。
本稿では,共役行動の特徴識別性を向上し,共通位相ネットワーク(JCDNet)を提案する。
JCDNetは最先端の手法と競合する性能を達成する。
- 参考スコア(独自算出の注目度): 4.923778284515907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization aims to localize action
instances in untrimmed videos with only video-level supervision. We witness
that different actions record common phases, e.g., the run-up in the HighJump
and LongJump. These different actions are defined as conjoint actions, whose
rest parts are definite phases, e.g., leaping over the bar in a HighJump.
Compared with the common phases, the definite phases are more easily localized
in existing researches. Most of them formulate this task as a Multiple Instance
Learning paradigm, in which the common phases are tended to be confused with
the background, and affect the localization completeness of the conjoint
actions. To tackle this challenge, we propose a Joint of Common and Definite
phases Network (JCDNet) by improving feature discriminability of the conjoint
actions. Specifically, we design a Class-Aware Discriminative module to enhance
the contribution of the common phases in classification by the guidance of the
coarse definite-phase features. Besides, we introduce a temporal attention
module to learn robust action-ness scores via modeling temporal dependencies,
distinguishing the common phases from the background. Extensive experiments on
three datasets (THUMOS14, ActivityNetv1.2, and a conjoint-action subset)
demonstrate that JCDNet achieves competitive performance against the
state-of-the-art methods. Keywords: weakly-supervised learning, temporal action
localization, conjoint action
- Abstract(参考訳): 弱教師付き時間的アクションローカライゼーションは、ビデオレベルの監督のみで、未トリミングビデオ内のアクションインスタンスをローカライズすることを目的としている。
私たちは、異なるアクションが共通のフェーズ、例えばHighJumpとLongJumpのランアップを記録するのを目撃します。
これらの異なるアクションは結合アクションとして定義され、残りの部分は一定の位相であり、例えばHighJumpのバーを飛び越える。
共通相と比較して、定相は既存の研究においてより容易に局所化される。
それらのほとんどがこのタスクを、共通フェーズが背景と混同される傾向があり、コンジョイントアクションのローカライズ完全性に影響する、複数のインスタンス学習パラダイムとして定式化している。
この課題に対処するため,コンジョイント行動の特徴識別性を向上し,共通位相ネットワーク(JCDNet)を提案する。
具体的には,粗定相特徴の指導により分類における共通相の寄与を高めるために,クラス認識型判別モジュールを設計する。
さらに,時間依存のモデル化を通じてロバストな動作性スコアを学習するための時間的注意モジュールを導入し,共通フェーズと背景を区別する。
3つのデータセット(THUMOS14, ActivityNetv1.2, and a conjoint-action subset)に対する大規模な実験は、JCDNetが最先端の手法と競合する性能を達成することを示した。
キーワード:弱教師付き学習、時間的行動局在、結合行動
関連論文リスト
- Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T09:50:42Z) - Foreground-Action Consistency Network for Weakly Supervised Temporal
Action Localization [66.66545680550782]
本稿では、FAC-Netというフレームワークを3つのブランチに付加し、クラスワイドフォアグラウンド分類ブランチ、クラス非依存アテンションブランチ、複数インスタンス学習ブランチを提案する。
まず, クラスワイド前景分類部は, 前景の分離を最大化するために, 行動と前景の関係を正規化する。
さらに、クラスに依存しないアテンションブランチと複数のインスタンス学習ブランチが採用され、フォアグラウンドの一貫性を規則化し、意味のあるフォアグラウンドを学ぶのに役立つ。
論文 参考訳(メタデータ) (2021-08-14T12:34:44Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Home Action Genome: Cooperative Compositional Action Understanding [33.69990813932372]
アクション認識に関する既存の研究は、アクティビティをビデオで発生したモノリシックなイベントとして扱う。
協調構成行動理解(CCAU)は階層的行動認識のための協調学習フレームワークである。
単サンプルで28.6%のmAPを達成し, 複数ショット動作認識におけるコラーニング合成の有用性を実証した。
論文 参考訳(メタデータ) (2021-05-11T17:42:47Z) - ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization [18.56421375743287]
ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。
アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。
提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
論文 参考訳(メタデータ) (2021-04-07T07:39:57Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Modeling Multi-Label Action Dependencies for Temporal Action
Localization [53.53490517832068]
実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。
非発生ビデオにおける時間的行動の局在化のタスクのためのこれらの行動関係をモデル化する注意に基づくアーキテクチャを提案する。
マルチラベルアクションローカリゼーションベンチマークの最先端の方法よりもパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2021-03-04T13:37:28Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。