Fugu-MT 論文翻訳(概要): JCDNet: Joint of Common and Definite phases Network for Weakly Supervised Temporal Action Localization

論文の概要: JCDNet: Joint of Common and Definite phases Network for Weakly Supervised Temporal Action Localization

arxiv url: http://arxiv.org/abs/2303.17294v1
Date: Thu, 30 Mar 2023 11:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 13:38:31.460580
Title: JCDNet: Joint of Common and Definite phases Network for Weakly Supervised Temporal Action Localization
Title（参考訳）: JCDNet:時間的行動局所化のための共通・定相ネットワークの統合
Authors: Yifu Liu, Xiaoxia Li, Zhiling Luo, Wei Zhou
Abstract要約: 弱教師付き時間的アクションローカライゼーションは、ビデオレベルの監督のみで、未トリミングビデオ内のアクションインスタンスをローカライズすることを目的としている。本稿では,共役行動の特徴識別性を向上し,共通位相ネットワーク(JCDNet)を提案する。 JCDNetは最先端の手法と競合する性能を達成する。
参考スコア（独自算出の注目度）: 4.923778284515907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weakly-supervised temporal action localization aims to localize action instances in untrimmed videos with only video-level supervision. We witness that different actions record common phases, e.g., the run-up in the HighJump and LongJump. These different actions are defined as conjoint actions, whose rest parts are definite phases, e.g., leaping over the bar in a HighJump. Compared with the common phases, the definite phases are more easily localized in existing researches. Most of them formulate this task as a Multiple Instance Learning paradigm, in which the common phases are tended to be confused with the background, and affect the localization completeness of the conjoint actions. To tackle this challenge, we propose a Joint of Common and Definite phases Network (JCDNet) by improving feature discriminability of the conjoint actions. Specifically, we design a Class-Aware Discriminative module to enhance the contribution of the common phases in classification by the guidance of the coarse definite-phase features. Besides, we introduce a temporal attention module to learn robust action-ness scores via modeling temporal dependencies, distinguishing the common phases from the background. Extensive experiments on three datasets (THUMOS14, ActivityNetv1.2, and a conjoint-action subset) demonstrate that JCDNet achieves competitive performance against the state-of-the-art methods. Keywords: weakly-supervised learning, temporal action localization, conjoint action
Abstract（参考訳）: 弱教師付き時間的アクションローカライゼーションは、ビデオレベルの監督のみで、未トリミングビデオ内のアクションインスタンスをローカライズすることを目的としている。私たちは、異なるアクションが共通のフェーズ、例えばHighJumpとLongJumpのランアップを記録するのを目撃します。これらの異なるアクションは結合アクションとして定義され、残りの部分は一定の位相であり、例えばHighJumpのバーを飛び越える。共通相と比較して、定相は既存の研究においてより容易に局所化される。それらのほとんどがこのタスクを、共通フェーズが背景と混同される傾向があり、コンジョイントアクションのローカライズ完全性に影響する、複数のインスタンス学習パラダイムとして定式化している。この課題に対処するため,コンジョイント行動の特徴識別性を向上し,共通位相ネットワーク(JCDNet)を提案する。具体的には,粗定相特徴の指導により分類における共通相の寄与を高めるために,クラス認識型判別モジュールを設計する。さらに,時間依存のモデル化を通じてロバストな動作性スコアを学習するための時間的注意モジュールを導入し,共通フェーズと背景を区別する。 3つのデータセット(THUMOS14, ActivityNetv1.2, and a conjoint-action subset)に対する大規模な実験は、JCDNetが最先端の手法と競合する性能を達成することを示した。キーワード:弱教師付き学習、時間的行動局在、結合行動

関連論文リスト

Exploring the Temporal Consistency for Point-Level Weakly-Supervised Temporal Action Localization [66.80402022104074]
ポイント教師付きテンポラルアクションローカライゼーション(PTAL)は、軽快なフレームアノテートパラダイム(textiti.e.、アクションインスタンスごとに1フレームのみをラベル付けする)を採用して、教師なしビデオ内のアクションインスタンスを見つけるようモデルを訓練する。既存のアプローチのほとんどは、アクションのフレーム間の時間的関係を明確にモデル化することなく、ポイントトリミングされたスニペットレベルの分類だけでモデルのタスクヘッドを設計する。本稿では,行動ローカライゼーションのための時間的理解能力を高めるために,ポイントインスペクションを完全に活用するマルチタスク学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-05T14:46:21Z)
Dual-Stream Alignment for Action Segmentation [37.24437077331131]
アクションセグメンテーションは、連続したビデオストリームで特定のアクションがいつどこで発生するかを特定する。最近の研究は、アクション性能を向上させるためにアクションワイドな特徴を学習する2ストリーム方式に移行している。本稿では,Dual-Stream Alignment Network (DSA Net)を提案する。
論文参考訳（メタデータ） (2025-10-09T00:59:17Z)
Reframing Dense Action Detection (RefDense): A Paradigm Shift in Problem Solving & a Novel Optimization Strategy [23.100602876056165]
時間的重複とクラスオーバーラップという2つの課題に対処するには複雑すぎると我々は主張する。本稿では, 密接な曖昧な部分概念を検出するために, 密接なあいまいな動作を検出するタスクを分解することを提案する。我々の実験は、最先端手法に対するアプローチの優位性を実証している。
論文参考訳（メタデータ） (2025-01-30T17:20:42Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文参考訳（メタデータ） (2021-08-15T09:50:42Z)
Foreground-Action Consistency Network for Weakly Supervised Temporal Action Localization [66.66545680550782]
本稿では、FAC-Netというフレームワークを3つのブランチに付加し、クラスワイドフォアグラウンド分類ブランチ、クラス非依存アテンションブランチ、複数インスタンス学習ブランチを提案する。まず, クラスワイド前景分類部は, 前景の分離を最大化するために, 行動と前景の関係を正規化する。さらに、クラスに依存しないアテンションブランチと複数のインスタンス学習ブランチが採用され、フォアグラウンドの一貫性を規則化し、意味のあるフォアグラウンドを学ぶのに役立つ。
論文参考訳（メタデータ） (2021-08-14T12:34:44Z)
Cross-modal Consensus Network for Weakly Supervised Temporal Action Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文参考訳（メタデータ） (2021-07-27T04:21:01Z)
Home Action Genome: Cooperative Compositional Action Understanding [33.69990813932372]
アクション認識に関する既存の研究は、アクティビティをビデオで発生したモノリシックなイベントとして扱う。協調構成行動理解(CCAU)は階層的行動認識のための協調学習フレームワークである。単サンプルで28.6%のmAPを達成し, 複数ショット動作認識におけるコラーニング合成の有用性を実証した。
論文参考訳（メタデータ） (2021-05-11T17:42:47Z)
ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal Action Localization [18.56421375743287]
ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
論文参考訳（メタデータ） (2021-04-07T07:39:57Z)
Weakly Supervised Temporal Action Localization Through Learning Explicit Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文参考訳（メタデータ） (2021-03-30T08:26:53Z)
Modeling Multi-Label Action Dependencies for Temporal Action Localization [53.53490517832068]
実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。非発生ビデオにおける時間的行動の局在化のタスクのためのこれらの行動関係をモデル化する注意に基づくアーキテクチャを提案する。マルチラベルアクションローカリゼーションベンチマークの最先端の方法よりもパフォーマンスが向上しました。
論文参考訳（メタデータ） (2021-03-04T13:37:28Z)
Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文参考訳（メタデータ） (2020-05-20T17:45:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。