論文の概要: ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2203.15187v1
- Date: Tue, 29 Mar 2022 01:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 14:14:17.329069
- Title: ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization
- Title(参考訳): ASM-Loc:弱スーパービジョン時空間行動定位のための行動認識セグメントモデリング
- Authors: Bo He, Xitong Yang, Le Kang, Zhiyu Cheng, Xin Zhou, Abhinav
Shrivastava
- Abstract要約: 微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
- 参考スコア(独自算出の注目度): 36.90693762365237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization aims to recognize and localize
action segments in untrimmed videos given only video-level action labels for
training. Without the boundary information of action segments, existing methods
mostly rely on multiple instance learning (MIL), where the predictions of
unlabeled instances (i.e., video snippets) are supervised by classifying
labeled bags (i.e., untrimmed videos). However, this formulation typically
treats snippets in a video as independent instances, ignoring the underlying
temporal structures within and across action segments. To address this problem,
we propose \system, a novel WTAL framework that enables explicit, action-aware
segment modeling beyond standard MIL-based methods. Our framework entails three
segment-centric components: (i) dynamic segment sampling for compensating the
contribution of short actions; (ii) intra- and inter-segment attention for
modeling action dynamics and capturing temporal dependencies; (iii) pseudo
instance-level supervision for improving action boundary prediction.
Furthermore, a multi-step refinement strategy is proposed to progressively
improve action proposals along the model training process. Extensive
experiments on THUMOS-14 and ActivityNet-v1.3 demonstrate the effectiveness of
our approach, establishing new state of the art on both datasets. The code and
models are publicly available at~\url{https://github.com/boheumd/ASM-Loc}.
- Abstract(参考訳): 弱教師付き時間的行動定位は、訓練のためにビデオレベルの行動ラベルのみを与える未トリミングビデオの行動セグメントを認識し、局所化することを目的としている。
アクションセグメントの境界情報がなければ、既存の手法は主に複数のインスタンス学習(MIL)に依存し、ラベル付きバッグ(未トリミングビデオ)の分類によってラベル付きインスタンス(ビデオスニペット)の予測が監視される。
しかしながら、この定式化は通常、ビデオ内のスニペットを独立インスタンスとして扱い、アクションセグメント内およびアクションセグメント間の根底にある時間構造を無視します。
この問題に対処するために,標準的なMIL法を超越した明示的でアクション対応セグメントモデリングを可能にする新しい WTAL フレームワークである \system を提案する。
私たちのフレームワークには3つのセグメント中心のコンポーネントが含まれています。
(i)ショートアクションの寄与を補償するための動的セグメントサンプリング
二 動作力学のモデル化及び時間的依存の把握のための分節内及び分節間注意
(iii)行動境界予測を改善するための擬似インスタンスレベルの監督。
さらに,モデル学習プロセスに沿って行動提案を段階的に改善する多段階改良戦略を提案する。
THUMOS-14とActivityNet-v1.3に関する大規模な実験は、我々のアプローチの有効性を実証し、両方のデータセットに新たな技術状態を確立する。
コードとモデルは、~\url{https://github.com/boheumd/ASM-Loc}で公開されている。
関連論文リスト
- POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - BIT: Bi-Level Temporal Modeling for Efficient Supervised Action
Segmentation [34.88225099758585]
教師付きアクションセグメンテーションは、ビデオを重複しないセグメントに分割することを目的としており、それぞれが異なるアクションを表す。
最近の研究は、高い計算コストを被るフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。
本稿では,アクションセグメントを表現するために明示的なアクショントークンを学習する,BIレベルの効率的な時間モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T20:59:15Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Temporal Segment Transformer for Action Segmentation [54.25103250496069]
本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-02-25T13:05:57Z) - Graph Convolutional Module for Temporal Action Localization in Videos [142.5947904572949]
アクション・ユニット間の関係は、アクション・ローカライゼーションにおいて重要な役割を果たすと主張する。
より強力なアクション検出器は、各アクションユニットの局所的な内容をキャプチャするだけでなく、関連するコンテキストに関する広い視野を許容するべきである。
本稿では,既存の動作ローカライズ手法に簡単にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
論文 参考訳(メタデータ) (2021-12-01T06:36:59Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Action Shuffle Alternating Learning for Unsupervised Action Segmentation [38.32743770719661]
我々は、正および負のアクションシーケンスを認識するためにRNNを訓練し、RNNの隠蔽層を新しいアクションレベルの特徴埋め込みとして捉えた。
動作の監視ができないため、アクション長を明示的にモデル化したHMMを指定し、ViterbiアルゴリズムによるMAPアクションセグメンテーションを推論する。
結果として生じるアクションセグメンテーションは、アクションレベルの機能埋め込みとHMMの更新を推定するための疑似根拠の真実として使用されます。
論文 参考訳(メタデータ) (2021-04-05T18:58:57Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Modeling Multi-Label Action Dependencies for Temporal Action
Localization [53.53490517832068]
実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。
非発生ビデオにおける時間的行動の局在化のタスクのためのこれらの行動関係をモデル化する注意に基づくアーキテクチャを提案する。
マルチラベルアクションローカリゼーションベンチマークの最先端の方法よりもパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2021-03-04T13:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。