論文の概要: AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2408.01708v1
- Date: Sat, 3 Aug 2024 08:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:51:05.657316
- Title: AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation
- Title(参考訳): AVESFormer:リアルタイム・オーディオ・ビジュアル・セグメンテーションのための効率的なトランスフォーマー設計
- Authors: Zili Wang, Qi Yang, Linsu Shi, Jiazhong Yu, Qinghua Liang, Fei Li, Shiming Xiang,
- Abstract要約: AVESFormerは、高速、効率的、軽量を同時に実現した最初のリアルタイム視覚効率変換器である。
AVESFormerはモデル性能を大幅に向上させ、S4では79.9%、MS3では57.9%、AVSSでは31.2%を達成した。
- 参考スコア(独自算出の注目度): 29.34754905469359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, transformer-based models have demonstrated remarkable performance on audio-visual segmentation (AVS) tasks. However, their expensive computational cost makes real-time inference impractical. By characterizing attention maps of the network, we identify two key obstacles in AVS models: 1) attention dissipation, corresponding to the over-concentrated attention weights by Softmax within restricted frames, and 2) inefficient, burdensome transformer decoder, caused by narrow focus patterns in early stages. In this paper, we introduce AVESFormer, the first real-time Audio-Visual Efficient Segmentation transformer that achieves fast, efficient and light-weight simultaneously. Our model leverages an efficient prompt query generator to correct the behaviour of cross-attention. Additionally, we propose ELF decoder to bring greater efficiency by facilitating convolutions suitable for local features to reduce computational burdens. Extensive experiments demonstrate that our AVESFormer significantly enhances model performance, achieving 79.9% on S4, 57.9% on MS3 and 31.2% on AVSS, outperforming previous state-of-the-art and achieving an excellent trade-off between performance and speed. Code can be found at https://github.com/MarkXCloud/AVESFormer.git.
- Abstract(参考訳): 近年,トランスフォーマーをベースとしたモデルは,音声視覚分割(AVS)タスクにおいて顕著な性能を示した。
しかし、その高価な計算コストは、リアルタイムの推論を非現実的にする。
ネットワークの注意マップを特徴付けることにより、AVSモデルにおける2つの重要な障害を特定する。
1)制限枠内でのソフトマックスによる過度に集中した注意重みに対応する注意散逸
2) 初期焦点パターンの狭さによる非効率で重荷のかかる変圧器デコーダ。
本稿では,AVESFormerについて紹介する。AVESFormerは,高速,効率,軽量を同時に実現した,最初のリアルタイム・ビジュアル・効率的なセグメンテーション変換器である。
提案モデルでは,効率的なプロンプトクエリジェネレータを用いて,クロスアテンションの動作を補正する。
さらに,局所的な特徴に適合する畳み込みを容易にし,計算負担を軽減することで,より効率的なELFデコーダを提案する。
AVESFormerはS4で79.9%、MS3で57.9%、AVSSで31.2%を達成し、過去の最先端を上回り、性能と速度のトレードオフに優れていた。
コードはhttps://github.com/MarkXCloud/AVESFormer.gitにある。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Scene Adaptive Sparse Transformer for Event-based Object Detection [40.04162039970849]
イベントベースオブジェクト検出のためのSAST(Scene Adaptive Sparse Transformer)を提案する。
SASTはウィンドウツーケンコスパーシフィケーションを可能にし、フォールトトレランスを大幅に向上し、計算オーバーヘッドを低減する。
2つの大規模イベントベースのオブジェクト検出データセットのパフォーマンスと効率の両方において、他の高密度でスパースなネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-04-02T12:15:25Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - AxFormer: Accuracy-driven Approximation of Transformers for Faster,
Smaller and more Accurate NLP Models [4.247712017691596]
AxFormerは、特定の下流タスクのために最適化されたトランスフォーマーモデルを作成するために、精度駆動の近似を適用するフレームワークである。
実験の結果,AxFormerモデルの方が最大4.5%精度が高く,2.5倍高速で3.2倍小型であることがわかった。
論文 参考訳(メタデータ) (2020-10-07T23:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。