論文の概要: ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos
- arxiv url: http://arxiv.org/abs/2407.12987v1
- Date: Wed, 17 Jul 2024 20:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:33:23.286051
- Title: ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos
- Title(参考訳): ActionSwitch: ストリーミングビデオにおける同時アクションのクラス非依存検出
- Authors: Hyolim Kang, Jeongseok Hyun, Joungbin An, Youngjae Yu, Seon Joo Kim,
- Abstract要約: ActionSwitchは、オーバーラップするアクションを検出することができる最初のクラスに依存しないOn-TALフレームワークである。
クラス情報への依存をなくすことで、ActionSwitchは様々な状況に幅広い適用性を提供します。
- 参考スコア(独自算出の注目度): 35.371453530275666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online Temporal Action Localization (On-TAL) is a critical task that aims to instantaneously identify action instances in untrimmed streaming videos as soon as an action concludes -- a major leap from frame-based Online Action Detection (OAD). Yet, the challenge of detecting overlapping actions is often overlooked even though it is a common scenario in streaming videos. Current methods that can address concurrent actions depend heavily on class information, limiting their flexibility. This paper introduces ActionSwitch, the first class-agnostic On-TAL framework capable of detecting overlapping actions. By obviating the reliance on class information, ActionSwitch provides wider applicability to various situations, including overlapping actions of the same class or scenarios where class information is unavailable. This approach is complemented by the proposed "conservativeness loss", which directly embeds a conservative decision-making principle into the loss function for On-TAL. Our ActionSwitch achieves state-of-the-art performance in complex datasets, including Epic-Kitchens 100 targeting the challenging egocentric view and FineAction consisting of fine-grained actions.
- Abstract(参考訳): オンライン・テンポラル・アクション・ローカライゼーション(On-TAL)は、フレームベースのオンライン・アクション・インテクション(OAD)の大きな飛躍である、アクションが終了するとすぐに、アントリミングされたストリーミングビデオ内のアクション・インスタンスを即時に識別することを目的とした重要なタスクである。
しかし、重なり合うアクションを検出するという課題は、ストリーミングビデオではよくあるシナリオであるにもかかわらず、しばしば見過ごされる。
並列アクションに対処できる現在のメソッドは、クラス情報に大きく依存し、柔軟性を制限します。
本稿では、重なり合うアクションを検出することができる最初のクラスに依存しないOn-TALフレームワークであるActionSwitchを紹介する。
クラス情報への依存をなくすことで、ActionSwitchは、同じクラスのオーバーラップアクションや、クラス情報が利用できないシナリオなど、さまざまな状況に幅広い適用性を提供します。
このアプローチは、保守的な意思決定原則を直接オンメタルの損失関数に組み込む「保守性損失」によって補完される。
私たちのActionSwitchは、Epic-Kitchens 100を含む複雑なデータセットで最先端のパフォーマンスを実現しています。
関連論文リスト
- One-Stage Open-Vocabulary Temporal Action Detection Leveraging Temporal Multi-scale and Action Label Features [2.8266810371534152]
The Open-vocabulary Temporal Action Detection (Open-vocab TAD) is a Advanced video analysis approach。
提案手法は,Open-vocab と Closed-vocab の両方の設定において,他の手法と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-04-30T13:14:28Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T09:50:42Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - ACSNet: Action-Context Separation Network for Weakly Supervised Temporal
Action Localization [148.55210919689986]
アクションの正確なローカリゼーションのためにコンテキストを考慮したアクションコンテキスト分離ネットワーク(ACSNet)を紹介します。
ACSNetは、既存の最先端のWS-TALメソッドを大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-03-28T09:20:54Z) - Discovering Multi-Label Actor-Action Association in a Weakly Supervised
Setting [22.86745487695168]
マルチインスタンスとマルチラベル学習に基づくベースラインを提案します。
本稿では,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。
提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-01-21T11:59:47Z) - WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos [124.72839555467944]
ビデオクラスラベルのみを用いてトレーニングできる弱教師付きフレームワークを提案する。
提案手法は, 弱教師付きベースラインよりも優れていることを示す。
本手法は,オンラインフレームごとの行動認識とオンライン行動開始検出の両方のタスクにおいて,最先端の成果を得る。
論文 参考訳(メタデータ) (2020-06-05T23:08:41Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。