論文の概要: Generic Event Boundary Detection Challenge at CVPR 2021 Technical
Report: Cascaded Temporal Attention Network (CASTANET)
- arxiv url: http://arxiv.org/abs/2107.00239v1
- Date: Thu, 1 Jul 2021 06:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 23:32:51.174269
- Title: Generic Event Boundary Detection Challenge at CVPR 2021 Technical
Report: Cascaded Temporal Attention Network (CASTANET)
- Title(参考訳): CVPR 2021テクニカルレポート:Cascaded Temporal Attention Network (CASTANET)
- Authors: Dexiang Hong, Congcong Li, Longyin Wen, Xinyao Wang, Libo Zhang
- Abstract要約: 本報告では,CVPR21におけるジェネリックイベント境界検出(GEBD)チャレンジへの取り組みについて述べる。
CASTANETは、バックボーンネットワーク、時間的注意モジュール、分類モジュールの3つの部分で構成されている。
提案手法は,Kinetics-GEBDテストセット上で83.30%のF1スコアを達成し,ベースライン法と比較して20.5%のF1スコアを向上する。
- 参考スコア(独自算出の注目度): 22.610590124628747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents the approach used in the submission of Generic Event
Boundary Detection (GEBD) Challenge at CVPR21. In this work, we design a
Cascaded Temporal Attention Network (CASTANET) for GEBD, which is formed by
three parts, the backbone network, the temporal attention module, and the
classification module. Specifically, the Channel-Separated Convolutional
Network (CSN) is used as the backbone network to extract features, and the
temporal attention module is designed to enforce the network to focus on the
discriminative features. After that, the cascaded architecture is used in the
classification module to generate more accurate boundaries. In addition, the
ensemble strategy is used to further improve the performance of the proposed
method. The proposed method achieves 83.30% F1 score on Kinetics-GEBD test set,
which improves 20.5% F1 score compared to the baseline method. Code is
available at https://github.com/DexiangHong/Cascade-PC.
- Abstract(参考訳): 本報告では,CVPR21におけるジェネリックイベント境界検出(GEBD)チャレンジへの取り組みについて述べる。
本研究では,GEBDのためのカスケード型時間注意ネットワーク(CASTANET)を設計し,バックボーンネットワーク,時間的注意モジュール,分類モジュールの3つの部分から構成される。
具体的には,Channel-Separated Convolutional Network (CSN) が機能抽出のバックボーンネットワークとして使用され,時間的アテンションモジュールはネットワークが識別機能にフォーカスするように設計されている。
その後、分類モジュールでカスケードアーキテクチャを使用して、より正確な境界を生成する。
また,提案手法の性能をさらに向上させるために,アンサンブル戦略を用いる。
提案手法は,Kinetics-GEBDテストセット上で83.30%のF1スコアを達成し,ベースライン法と比較して20.5%のF1スコアを向上する。
コードはhttps://github.com/DexiangHong/Cascade-PCで入手できる。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - ESGCN: Edge Squeeze Attention Graph Convolutional Network for Traffic
Flow Forecasting [15.475463516901938]
本稿では,複数の地域でのトラフィックフローを予測するネットワークエッジ・スキーズ・コンボリューション・ネットワーク(ESCN)を提案する。
ESGCNは、4つの現実世界のデータセットに対して大きなマージンで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-03T04:47:42Z) - Temporal-Channel Topology Enhanced Network for Skeleton-Based Action
Recognition [26.609509266693077]
骨格に基づく行動認識のための空間的トポロジと時間的トポロジを学習するための新しいCNNアーキテクチャTCTE-Netを提案する。
TCTE-Netは、CNNベースの手法と比較して最先端の性能を示し、GCNベースの手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-02-25T03:09:07Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - Omni-supervised Point Cloud Segmentation via Gradual Receptive Field
Component Reasoning [41.83979510282989]
提案した RFCR (Receptive Field Component Reasoning) を通したクラウドセグメンテーションに,最初のオムニスケール監視手法を導入する。
提案手法は,S3DIS と Semantic3D に対して新たな最先端性能を実現し,ScanNet ベンチマークの1位にランクインする。
論文 参考訳(メタデータ) (2021-05-21T08:32:02Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Densely Connected Recurrent Residual (Dense R2UNet) Convolutional Neural
Network for Segmentation of Lung CT Images [0.342658286826597]
本稿では,U-Netモデルアーキテクチャに基づくリカレントCNN,Residual Network,Dense Convolutional Networkの合成について述べる。
ベンチマークLung Lesionデータセットで検証したモデルでは、同等のモデルよりもセグメンテーションタスクのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2021-02-01T06:34:10Z) - ASAP-Net: Attention and Structure Aware Point Cloud Sequence
Segmentation [49.15948235059343]
我々は、ASAPと呼ばれるフレキシブルモジュールにより、ポイントテンポラルクラウド機能をさらに改善する。
我々のASAPモジュールは、フレーム間の比較的情報性の高い局所的特徴を連続的に融合させるために、注意深い時間的埋め込み層を含んでいる。
本稿では、ポイントクラウドシーケンシャルセグメンテーションのための異なる計算バックボーンネットワークを持つASAPモジュールの一般化能力を示す。
論文 参考訳(メタデータ) (2020-08-12T07:37:16Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。