論文の概要: SC-Transformer++: Structured Context Transformer for Generic Event
Boundary Detection
- arxiv url: http://arxiv.org/abs/2206.12634v1
- Date: Sat, 25 Jun 2022 12:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:15:47.295840
- Title: SC-Transformer++: Structured Context Transformer for Generic Event
Boundary Detection
- Title(参考訳): SC-Transformer++: イベント境界検出のための構造化コンテキスト変換器
- Authors: Dexiang Hong, Xiaoqi Ma, Xinyao Wang, Congcong Li, Yufei Wang, Longyin
Wen
- Abstract要約: 本報告では,CVPR 2022におけるジェネリックイベント境界検出(GEBD)チャレンジの提出に使用されるアルゴリズムについて述べる。
具体的には、トランスエンコーダの後、トランスデコーダモジュールを追加して高品質なフレーム特徴を抽出する。
提案手法は,Kinetics-GEBDテストセットの86.49%のF1スコアを達成し,従来のSOTA法と比較して2.86%のF1スコアを向上した。
- 参考スコア(独自算出の注目度): 24.40776694538091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents the algorithm used in the submission of Generic Event
Boundary Detection (GEBD) Challenge at CVPR 2022. In this work, we improve the
existing Structured Context Transformer (SC-Transformer) method for GEBD.
Specifically, a transformer decoder module is added after transformer encoders
to extract high quality frame features. The final classification is performed
jointly on the results of the original binary classifier and a newly introduced
multi-class classifier branch. To enrich motion information, optical flow is
introduced as a new modality. Finally, model ensemble is used to further boost
performance. The proposed method achieves 86.49% F1 score on Kinetics-GEBD test
set. which improves 2.86% F1 score compared to the previous SOTA method.
- Abstract(参考訳): 本報告では,CVPR 2022におけるジェネリックイベント境界検出(GEBD)チャレンジの提出に使用されるアルゴリズムについて述べる。
本稿では,GEBDのための既存の構造化コンテキスト変換器(SC-Transformer)法を改善する。
具体的には、トランスコーダの後にトランスフォーマデコーダモジュールを追加して高品質なフレーム特徴を抽出する。
最終分類は、元のバイナリ分類器と新しく導入されたマルチクラス分類器ブランチの結果を共同で行う。
動き情報を強化するために、新しいモダリティとして光の流れを導入する。
最後に、モデルアンサンブルを使用してパフォーマンスをさらに向上させる。
提案手法は, 86.49%のf1スコアを得た。
これは以前のSOTA法に比べて2.86%のF1スコアを改善する。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - FlowTransformer: A Transformer Framework for Flow-based Network
Intrusion Detection Systems [0.0]
FlowTransformerは、トランスフォーマーベースのNIDSを実装するための新しいアプローチである。
入力エンコーディング、トランスフォーマー、分類ヘッド、フローベースのネットワークデータセット間での評価など、トランスフォーマーコンポーネントの直接的な置換を可能にする。
論文 参考訳(メタデータ) (2023-04-28T10:40:34Z) - Structured Context Transformer for Generic Event Boundary Detection [32.09242716244653]
我々は、ジェネリックイベント境界検出タスクを解決するために、構造化コンテキスト変換器(SC-Transformer)を提案する。
バックボーン畳み込みニューラルネットワーク(CNN)を用いて,各ビデオフレームの特徴を抽出する。
グループ化された類似性マップに基づいてイベント境界を決定するために、軽量な完全畳み込みネットワークが使用される。
論文 参考訳(メタデータ) (2022-06-07T03:00:24Z) - Transformer based Generative Adversarial Network for Liver Segmentation [4.317557160310758]
本稿では,Transformer(s) とGenerative Adversarial Network (GAN) を組み合わせたハイブリッドアプローチを用いた新しいセグメンテーション手法を提案する。
我々のモデルは高いダイス係数0.9433、リコール0.9515、精度0.9376、その他のトランスフォーマーベースアプローチより優れていた。
論文 参考訳(メタデータ) (2022-05-21T19:55:43Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Transformer Assisted Convolutional Network for Cell Instance
Segmentation [5.195101477698897]
本稿では,従来の畳み込み特徴抽出器の性能向上のためのトランスフォーマーに基づく手法を提案する。
提案手法は, 変圧器の自己アテンションに類似した投影操作を適用することにより, 変圧器を用いたトークン埋め込みと畳み込み特徴写像を融合する。
論文 参考訳(メタデータ) (2021-10-05T18:18:31Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。