論文の概要: Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context
- arxiv url: http://arxiv.org/abs/2103.16155v1
- Date: Tue, 30 Mar 2021 08:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:57:09.863974
- Title: Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context
- Title(参考訳): 行動・文脈の明示的部分空間の学習による時間的行動局所化の弱化
- Authors: Ziyi Liu, Le Wang, Wei Tang, Junsong Yuan, Nanning Zheng, Gang Hua
- Abstract要約: ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
- 参考スコア(独自算出の注目度): 151.23835595907596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised Temporal Action Localization (WS-TAL) methods learn to
localize temporal starts and ends of action instances in a video under only
video-level supervision. Existing WS-TAL methods rely on deep features learned
for action recognition. However, due to the mismatch between classification and
localization, these features cannot distinguish the frequently co-occurring
contextual background, i.e., the context, and the actual action instances. We
term this challenge action-context confusion, and it will adversely affect the
action localization accuracy. To address this challenge, we introduce a
framework that learns two feature subspaces respectively for actions and their
context. By explicitly accounting for action visual elements, the action
instances can be localized more precisely without the distraction from the
context. To facilitate the learning of these two feature subspaces with only
video-level categorical labels, we leverage the predictions from both spatial
and temporal streams for snippets grouping. In addition, an unsupervised
learning task is introduced to make the proposed module focus on mining
temporal information. The proposed approach outperforms state-of-the-art WS-TAL
methods on three benchmarks, i.e., THUMOS14, ActivityNet v1.2 and v1.3
datasets.
- Abstract(参考訳): 弱教師付き時間的行動局所化(WS-TAL)手法は、ビデオレベルの監視のみの下でビデオ内の時間的開始と終了をローカライズする。
既存のWS-TALメソッドは、アクション認識のために学んだ深い機能に依存しています。
しかし、分類とローカライゼーションのミスマッチのため、これらの特徴は頻繁に発生するコンテキスト背景、すなわちコンテキストと実際のアクションインスタンスを区別することはできない。
この課題を行動-文脈の混同と呼び,行動の局所化精度に悪影響を及ぼす。
この課題に対処するために、アクションとコンテキストの2つの機能部分空間をそれぞれ学習するフレームワークを導入する。
アクション視覚要素を明示的に説明することにより、アクションインスタンスは、コンテキストから逸脱することなく、より正確にローカライズすることができる。
ビデオレベルの分類ラベルのみを用いた2つの特徴部分空間の学習を容易にするために,スニペットグループ化のための空間的および時間的ストリームからの予測を活用した。
また,提案モジュールを時間情報マイニングに焦点を合わせ,教師なし学習タスクを導入する。
提案されたアプローチは、3つのベンチマーク、すなわち thumos14, activitynet v1.2, v1.3 データセットで最先端の ws-tal メソッドを上回る。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization [18.56421375743287]
ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。
アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。
提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
論文 参考訳(メタデータ) (2021-04-07T07:39:57Z) - ACSNet: Action-Context Separation Network for Weakly Supervised Temporal
Action Localization [148.55210919689986]
アクションの正確なローカリゼーションのためにコンテキストを考慮したアクションコンテキスト分離ネットワーク(ACSNet)を紹介します。
ACSNetは、既存の最先端のWS-TALメソッドを大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-03-28T09:20:54Z) - PcmNet: Position-Sensitive Context Modeling Network for Temporal Action
Localization [11.685362686431446]
本論文では,位置情報と意味情報の両方を組み込んだ時間的位置感応型コンテキストモデリング手法を提案する。
THUMOS-14とActivityNet-1.3の2つの挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-09T07:34:01Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。