論文の概要: Structured Attention Composition for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2205.09956v1
- Date: Fri, 20 May 2022 04:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 15:17:07.279736
- Title: Structured Attention Composition for Temporal Action Localization
- Title(参考訳): 時間的行動定位のための構造的注意組成
- Authors: Le Yang, Junwei Han, Tao Zhao, Nian Liu, Dingwen Zhang
- Abstract要約: マルチモーダル特徴学習の観点から時間的行動ローカライゼーションについて検討する。
従来の注目とは異なり、提案されたモジュールはフレームの注意とモダリティの注意を独立して推測しない。
提案した構造化された注目合成モジュールは、既存のアクションローカライゼーションフレームワークにプラグイン・アンド・プレイモジュールとしてデプロイすることができる。
- 参考スコア(独自算出の注目度): 99.66510088698051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization aims at localizing action instances from
untrimmed videos. Existing works have designed various effective modules to
precisely localize action instances based on appearance and motion features.
However, by treating these two kinds of features with equal importance,
previous works cannot take full advantage of each modality feature, making the
learned model still sub-optimal. To tackle this issue, we make an early effort
to study temporal action localization from the perspective of multi-modality
feature learning, based on the observation that different actions exhibit
specific preferences to appearance or motion modality. Specifically, we build a
novel structured attention composition module. Unlike conventional attention,
the proposed module would not infer frame attention and modality attention
independently. Instead, by casting the relationship between the modality
attention and the frame attention as an attention assignment process, the
structured attention composition module learns to encode the frame-modality
structure and uses it to regularize the inferred frame attention and modality
attention, respectively, upon the optimal transport theory. The final
frame-modality attention is obtained by the composition of the two individual
attentions. The proposed structured attention composition module can be
deployed as a plug-and-play module into existing action localization
frameworks. Extensive experiments on two widely used benchmarks show that the
proposed structured attention composition consistently improves four
state-of-the-art temporal action localization methods and builds new
state-of-the-art performance on THUMOS14. Code is availabel at
https://github.com/VividLe/Online-Action-Detection.
- Abstract(参考訳): 時間的アクションローカライゼーションは、未トリミングビデオからのアクションインスタンスのローカライズを目的としている。
既存の作業は、外見と動きの特徴に基づいてアクションインスタンスを正確にローカライズするための様々な効果的なモジュールを設計している。
しかし、これら2つの特徴を等しく重要視することで、以前の作品ではそれぞれのモダリティ機能を十分に活用できないため、学習モデルはまだ最適ではない。
本研究は,様々な行動が出現や運動のモダリティに対して特定の嗜好を示すという観察に基づいて,多様特徴学習の観点から,時間的行動の局所化を早期に研究する試みである。
具体的には,新しいアテンション合成モジュールを構築する。
従来の注目とは異なり、提案されたモジュールはフレームの注意とモダリティの注意を独立して推測しない。
代わりに、注意割当プロセスとしてモダリティ注意とフレーム注意の関係をキャストすることで、構造化アテンション合成モジュールは、フレームモダリティ構造を符号化することを学び、最適な輸送理論に基づいて、推論されたフレーム注意とモダリティ注意を正則化する。
最終的なフレームモダリティの注意は、2つの個別の注意の構成によって得られる。
提案する構造化アテンション合成モジュールは、既存のアクションローカライゼーションフレームワークにプラグインアンドプレイモジュールとしてデプロイすることができる。
広範に使用されている2つのベンチマーク実験の結果,提案手法は4つの時間的動作ローカライゼーション法を一貫して改善し,THUMOS14上に新しい最先端性能を構築する。
コードはhttps://github.com/VividLe/Online-Action-Detectionで利用可能である。
関連論文リスト
- Learning Correlation Structures for Vision Transformers [93.22434535223587]
構造自己注意(StructSA)と呼ばれる新しい注意機構を導入する。
我々は、畳み込みによるキー-クエリ相関の時空間構造を認識して注意マップを生成する。
これは、シーンレイアウト、オブジェクトの動き、オブジェクト間の関係など、画像やビデオのリッチな構造パターンを効果的に活用する。
論文 参考訳(メタデータ) (2024-04-05T07:13:28Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。
本論文の主な焦点は、合成/ファウショット動作認識である。
レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文 参考訳(メタデータ) (2021-11-02T23:04:39Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。