論文の概要: Entity-aware and Motion-aware Transformers for Language-driven Action
Localization in Videos
- arxiv url: http://arxiv.org/abs/2205.05854v1
- Date: Thu, 12 May 2022 03:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:23:51.343154
- Title: Entity-aware and Motion-aware Transformers for Language-driven Action
Localization in Videos
- Title(参考訳): 映像における言語駆動行動定位のためのエンティティ認識とモーション認識トランスフォーマー
- Authors: Shuo Yang and Xinxiao Wu
- Abstract要約: 動画中のアクションを段階的にローカライズするエンティティ・アウェア・モーション・アウェア・トランスフォーマーを提案する。
エンティティ対応トランスフォーマーは、テキストエンティティを視覚表現学習に組み込む。
動き認識変換器は、複数の時間スケールで微細な動き変化をキャプチャする。
- 参考スコア(独自算出の注目度): 29.81187528951681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-driven action localization in videos is a challenging task that
involves not only visual-linguistic matching but also action boundary
prediction. Recent progress has been achieved through aligning language query
to video segments, but estimating precise boundaries is still under-explored.
In this paper, we propose entity-aware and motion-aware Transformers that
progressively localizes actions in videos by first coarsely locating clips with
entity queries and then finely predicting exact boundaries in a shrunken
temporal region with motion queries. The entity-aware Transformer incorporates
the textual entities into visual representation learning via cross-modal and
cross-frame attentions to facilitate attending action-related video clips. The
motion-aware Transformer captures fine-grained motion changes at multiple
temporal scales via integrating long short-term memory into the self-attention
module to further improve the precision of action boundary prediction.
Extensive experiments on the Charades-STA and TACoS datasets demonstrate that
our method achieves better performance than existing methods.
- Abstract(参考訳): ビデオにおける言語駆動のアクションローカライゼーションは、視覚言語的マッチングだけでなく、アクション境界予測も含む難しいタスクである。
最近の進歩は、言語クエリをビデオセグメントに合わせることで達成されているが、正確な境界の推定はまだ未検討である。
本稿では,まず,エンティティクエリを用いたクリップの粗い位置決めを行い,次に,動きクエリによる縮小した時間領域における正確な境界を微妙な予測により,映像中の動作を段階的に局所化するエンティティ認識およびモーション認識トランスを提案する。
エンティティ対応トランスフォーマーは、アクション関連ビデオクリップへの参加を容易にするために、クロスモーダルおよびクロスフレームアテンションを介してテキストエンティティを視覚表現学習に組み込む。
動き認識変換器は、長い短期記憶を自己アテンションモジュールに統合することにより、複数の時間スケールでの微粒な動き変化を捕捉し、アクション境界予測の精度をさらに向上する。
Charades-STAデータセットとTACoSデータセットの大規模な実験により,本手法が既存手法よりも優れた性能を発揮することが示された。
関連論文リスト
- Efficient and Effective Weakly-Supervised Action Segmentation via Action-Transition-Aware Boundary Alignment [33.74853437611066]
弱教師付きアクションセグメンテーションは、長いビデオを複数のアクションセグメンテーションに分割する学習である。
既存の手法の多くは、すべてのフレームと転写文間のシリアルアライメントによるトレーニングのために擬似セグメンテーションを推論する必要がある。
本稿では,雑音境界を効果的かつ効果的にフィルタリングし,遷移を検出する新しい行動遷移対応境界アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T08:39:44Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。