論文の概要: Structured Context Transformer for Generic Event Boundary Detection
- arxiv url: http://arxiv.org/abs/2206.02985v1
- Date: Tue, 7 Jun 2022 03:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 04:54:37.580992
- Title: Structured Context Transformer for Generic Event Boundary Detection
- Title(参考訳): イベント境界検出のための構造化コンテキスト変換器
- Authors: Congcong Li, Xinyao Wang, Dexiang Hong, Yufei Wang, Libo Zhang,
Tiejian Luo, Longyin Wen
- Abstract要約: 我々は、ジェネリックイベント境界検出タスクを解決するために、構造化コンテキスト変換器(SC-Transformer)を提案する。
バックボーン畳み込みニューラルネットワーク(CNN)を用いて,各ビデオフレームの特徴を抽出する。
グループ化された類似性マップに基づいてイベント境界を決定するために、軽量な完全畳み込みネットワークが使用される。
- 参考スコア(独自算出の注目度): 32.09242716244653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generic Event Boundary Detection (GEBD) aims to detect moments where humans
naturally perceive as event boundaries. In this paper, we present Structured
Context Transformer (or SC-Transformer) to solve the GEBD task, which can be
trained in an end-to-end fashion. Specifically, we use the backbone
convolutional neural network (CNN) to extract the features of each video frame.
To capture temporal context information of each frame, we design the structure
context transformer (SC-Transformer) by re-partitioning input frame sequence.
Note that, the overall computation complexity of SC-Transformer is linear to
the video length. After that, the group similarities are computed to capture
the differences between frames. Then, a lightweight fully convolutional network
is used to determine the event boundaries based on the grouped similarity maps.
To remedy the ambiguities of boundary annotations, the Gaussian kernel is
adopted to preprocess the ground-truth event boundaries to further boost the
accuracy. Extensive experiments conducted on the challenging Kinetics-GEBD and
TAPOS datasets demonstrate the effectiveness of the proposed method compared to
the state-of-the-art methods.
- Abstract(参考訳): ジェネリックイベント境界検出(GEBD)は、人間が自然にイベント境界として知覚する瞬間を検出することを目的としている。
本稿では,構造化コンテキスト変換器(SC-Transformer)を用いて,エンド・ツー・エンドで学習可能なGABD課題を解決する。
具体的には、バックボーン畳み込みニューラルネットワーク(CNN)を用いて、各ビデオフレームの特徴を抽出する。
各フレームの時間的コンテキスト情報をキャプチャするために、入力フレームシーケンスを再分割して構造コンテキストトランスフォーマ(sc-transformer)を設計する。
なお、SC-Transformerの全体的な計算複雑性はビデオ長に線形である。
その後、グループ類似度を計算してフレーム間の差をキャプチャする。
次に、軽量な完全畳み込みネットワークを用いて、グループ化された類似度マップに基づいてイベント境界を決定する。
境界アノテーションのあいまいさを補うため、ガウスカーネルは、基幹イベント境界を前処理して精度をさらに高めるために採用されている。
Kinetics-GEBD と TAPOS のデータセットを用いた大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- CT-Bound: Robust Boundary Detection From Noisy Images Via Hybrid Convolution and Transformer Neural Networks [10.622511683372815]
我々は,畳み込みとトランスフォーマーのハイブリッドニューラルネットワークを用いて,非常にノイズの多い画像に対して,頑健で高速な境界検出手法であるCT-Boundを提案する。
局所的な検出では、各画像パッチの境界構造を予測するために畳み込みアーキテクチャを使用する。
次に、フィードフォワードトランスフォーマーアーキテクチャを用いて、各パッチの境界構造をグローバルに洗練し、エッジマップとスムーズなカラーマップを同時に生成する。
論文 参考訳(メタデータ) (2024-03-25T07:22:22Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Generic Event Boundary Detection in Video with Pyramid Features [12.896848011230523]
ジェネリックイベントバウンダリ検出(GEBD)は、人間が自然にイベントバウンダリを知覚する幅広い多様なアクションセットで、ビデオをチャンクに分割することを目的としている。
本稿では,隣接するフレームとピラミッド特徴写像の空間次元と時間次元の相関を考察する。
論文 参考訳(メタデータ) (2023-01-11T03:29:27Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z) - Temporal Perceiver: A General Architecture for Arbitrary Boundary
Detection [48.33132632418303]
ジェネリック境界検出(GBD)は、動画をセマンティック・コヒーレントと分類なしの単位に分割する一般的な境界を特定することを目的としている。
従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。
本稿では,Transformer を用いた汎用アーキテクチャである Temporal Perceiver について述べる。
論文 参考訳(メタデータ) (2022-03-01T09:31:30Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。