論文の概要: Pyramid Region-based Slot Attention Network for Temporal Action Proposal
Generation
- arxiv url: http://arxiv.org/abs/2206.10095v1
- Date: Tue, 21 Jun 2022 03:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 16:54:20.444150
- Title: Pyramid Region-based Slot Attention Network for Temporal Action Proposal
Generation
- Title(参考訳): 時間行動生成のためのピラミッド領域に基づくスロットアテンションネットワーク
- Authors: Shuaicheng Li, Feng Zhang, Rui-Wei Zhao, Rui Feng, Kunlin Yang, Lingbo
Liu, Jun Hou
- Abstract要約: 時間的アクションの提案生成は、適切な時間的および意味的なコンテキストの活用から大きく恩恵を受けることができる。
本稿では、時間的・意味的コンテキストの豊富な統合視覚表現を学習するための、ピラミッド領域に基づく新しいスロット注意ネットワーク PRSA-Net を提案する。
- 参考スコア(独自算出の注目度): 17.01865793062819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been found that temporal action proposal generation, which aims to
discover the temporal action instances within the range of the start and end
frames in the untrimmed videos, can largely benefit from proper temporal and
semantic context exploitation. The latest efforts were dedicated to considering
the temporal context and similarity-based semantic contexts through
self-attention modules. However, they still suffer from cluttered background
information and limited contextual feature learning. In this paper, we propose
a novel Pyramid Region-based Slot Attention (PRSlot) module to address these
issues. Instead of using the similarity computation, our PRSlot module directly
learns the local relations in an encoder-decoder manner and generates the
representation of a local region enhanced based on the attention over input
features called \textit{slot}. Specifically, upon the input snippet-level
features, PRSlot module takes the target snippet as \textit{query}, its
surrounding region as \textit{key} and then generates slot representations for
each \textit{query-key} slot by aggregating the local snippet context with a
parallel pyramid strategy. Based on PRSlot modules, we present a novel Pyramid
Region-based Slot Attention Network termed PRSA-Net to learn a unified visual
representation with rich temporal and semantic context for better proposal
generation. Extensive experiments are conducted on two widely adopted THUMOS14
and ActivityNet-1.3 benchmarks. Our PRSA-Net outperforms other state-of-the-art
methods. In particular, we improve the AR@100 from the previous best 50.67% to
56.12% for proposal generation and raise the mAP under 0.5 tIoU from 51.9\% to
58.7\% for action detection on THUMOS14. \textit{Code is available at}
\url{https://github.com/handhand123/PRSA-Net}
- Abstract(参考訳): ビデオの開始フレームと終了フレームの範囲内での時間的アクションインスタンスの発見を目的とした時間的アクション提案生成は,時間的コンテキストと意味的コンテキストの適切な利用の恩恵が大きいことが判明した。
最新の取り組みは、自己認識モジュールを通して時間的コンテキストと類似性に基づく意味的コンテキストを検討することに集中している。
しかし、いまだに混乱した背景情報と限られた文脈的特徴学習に苦しむ。
本稿では,これらの問題に対処する新しいピラミッド領域型スロットアテンション(PRSlot)モジュールを提案する。
PRSlotモジュールは、類似性計算を使用する代わりに、エンコーダ-デコーダ方式で局所関係を直接学習し、 \textit{slot} と呼ばれる入力特徴に対する注意に基づいて強化された局所領域の表現を生成する。
具体的には、入力スニペットレベルの機能に基づいて、prslotモジュールは対象のスニペットを \textit{query} として、その周辺領域を \textit{key} として、各 \textit{query-key} スロットのスロット表現を生成し、ローカルスニペットコンテキストを並列ピラミッド戦略で集約する。
PRSlotモジュールをベースとして、PRSA-Netと呼ばれる新しいピラミッド領域ベースのSlot Attention Networkを提案し、より優れた提案生成のための時間的・意味的なコンテキストを持つ統一視覚表現を学習する。
thumos14 と activitynet-1.3 ベンチマークが広く採用されている。
我々のPRSA-Netは、他の最先端手法よりも優れています。
特に、AR@100は、提案生成の50.67%から56.12%に改善し、mAPを0.5tIoU以下で51.9\%から58.7\%に引き上げます。
\textit{Code is available at} \url{https://github.com/handhand123/PRSA-Net}
関連論文リスト
- Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Semantic Segmentation by Early Region Proxy [53.594035639400616]
本稿では,学習可能な領域のテッセルレーションとしてイメージを解釈することから始まる,新規で効率的なモデリングについて述べる。
領域のコンテキストをモデル化するために,Transformerを用いてシーケンス・ツー・シーケンス方式で領域を符号化する。
現在、符号化された領域埋め込みの上に、領域ごとのセマンティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-03-26T10:48:32Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。