論文の概要: Modeling Multi-Label Action Dependencies for Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2103.03027v1
- Date: Thu, 4 Mar 2021 13:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 16:06:43.571462
- Title: Modeling Multi-Label Action Dependencies for Temporal Action
Localization
- Title(参考訳): 時間的行動定位のためのマルチラベル行動依存のモデル化
- Authors: Praveen Tirupattur, Kevin Duarte, Yogesh Rawat, Mubarak Shah
- Abstract要約: 実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。
非発生ビデオにおける時間的行動の局在化のタスクのためのこれらの行動関係をモデル化する注意に基づくアーキテクチャを提案する。
マルチラベルアクションローカリゼーションベンチマークの最先端の方法よりもパフォーマンスが向上しました。
- 参考スコア(独自算出の注目度): 53.53490517832068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world videos contain many complex actions with inherent relationships
between action classes. In this work, we propose an attention-based
architecture that models these action relationships for the task of temporal
action localization in untrimmed videos. As opposed to previous works that
leverage video-level co-occurrence of actions, we distinguish the relationships
between actions that occur at the same time-step and actions that occur at
different time-steps (i.e. those which precede or follow each other). We define
these distinct relationships as action dependencies. We propose to improve
action localization performance by modeling these action dependencies in a
novel attention-based Multi-Label Action Dependency (MLAD)layer. The MLAD layer
consists of two branches: a Co-occurrence Dependency Branch and a Temporal
Dependency Branch to model co-occurrence action dependencies and temporal
action dependencies, respectively. We observe that existing metrics used for
multi-label classification do not explicitly measure how well action
dependencies are modeled, therefore, we propose novel metrics that consider
both co-occurrence and temporal dependencies between action classes. Through
empirical evaluation and extensive analysis, we show improved performance over
state-of-the-art methods on multi-label action localization
benchmarks(MultiTHUMOS and Charades) in terms of f-mAP and our proposed metric.
- Abstract(参考訳): 実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。
本研究では,映像の時間的行動ローカライゼーションの課題に対して,これらの行動関係をモデル化するアテンションベースアーキテクチャを提案する。
アクションのビデオレベルの共起を利用する以前の作品とは対照的に、我々は同時に発生するアクションと異なるタイムステップで発生するアクションの関係を区別する(すなわち)。
互いに先行する、または従うもの)
これらの異なる関係をアクション依存と定義します。
本稿では,これらのアクション依存性を,新しいアテンションベースマルチラベルアクション依存性(MLAD)層でモデル化することで,アクションローカライズ性能を向上させることを提案する。
MLADレイヤは、共起アクション依存関係をモデル化するための共起アクション依存関係ブランチと、時間的アクション依存関係の2つのブランチで構成されている。
我々は,マルチラベル分類に使用される既存のメトリクスは,アクション依存のモデル化の精度を明示的に測定しないので,アクションクラス間の共起と時間依存の両方を考慮した新しいメトリクスを提案する。
実験的な評価と広範囲な分析により,f-mAPと提案した指標を用いて,マルチラベル動作ローカライゼーションベンチマーク(MultiTHUMOSとCharades)の最先端手法よりも優れた性能を示す。
関連論文リスト
- An Effective-Efficient Approach for Dense Multi-Label Action Detection [23.100602876056165]
i)時間的依存関係と(ii)共起行動関係を同時に学習する必要がある。
近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。
我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。
論文 参考訳(メタデータ) (2024-06-10T11:33:34Z) - BIT: Bi-Level Temporal Modeling for Efficient Supervised Action
Segmentation [34.88225099758585]
教師付きアクションセグメンテーションは、ビデオを重複しないセグメントに分割することを目的としており、それぞれが異なるアクションを表す。
最近の研究は、高い計算コストを被るフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。
本稿では,アクションセグメントを表現するために明示的なアクショントークンを学習する,BIレベルの効率的な時間モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T20:59:15Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Graph Convolutional Module for Temporal Action Localization in Videos [142.5947904572949]
アクション・ユニット間の関係は、アクション・ローカライゼーションにおいて重要な役割を果たすと主張する。
より強力なアクション検出器は、各アクションユニットの局所的な内容をキャプチャするだけでなく、関連するコンテキストに関する広い視野を許容するべきである。
本稿では,既存の動作ローカライズ手法に簡単にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
論文 参考訳(メタデータ) (2021-12-01T06:36:59Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Partially Observed Exchangeable Modeling [14.466964173883948]
我々は、部分的に観察される交換可能なモデリング(POEx)という新しいフレームワークを提案する。
POExは関連する部分的に観測された一連のインスタンスを取り込み、複数の要素上で観測されていない次元の条件分布を推測する。
当社のアプローチは、データのイントラインスタンス(一点に特徴がある)とイントラインスタンス(一点に複数の点がある)の依存関係を共同でモデル化する。
論文 参考訳(メタデータ) (2021-02-11T15:54:18Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。