論文の概要: Attention Is Not Always the Answer: Optimizing Voice Activity Detection with Simple Feature Fusion
- arxiv url: http://arxiv.org/abs/2506.01365v1
- Date: Mon, 02 Jun 2025 06:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.072576
- Title: Attention Is Not Always the Answer: Optimizing Voice Activity Detection with Simple Feature Fusion
- Title(参考訳): 注意は常に答えではない:単純な特徴融合による音声活動検出の最適化
- Authors: Kumud Tripathi, Chowdam Venkata Kumar, Pankaj Wasnik,
- Abstract要約: 本研究は,Wav2vec 2.0, HuBERT, WavLM, UniSpeech, MMS, Whisper など,Mel-Frequency Cepstral Coefficients (MFCCs) とpre-trained model (PTM) の特徴について検討した。
結合性,付加性,横断性という3つの融合戦略を用いて,両方の特徴型を組み合わせた統合型フレームワークであるFusionVADを提案する。
- 参考スコア(独自算出の注目度): 2.403252956256118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice Activity Detection (VAD) plays a key role in speech processing, often utilizing hand-crafted or neural features. This study examines the effectiveness of Mel-Frequency Cepstral Coefficients (MFCCs) and pre-trained model (PTM) features, including wav2vec 2.0, HuBERT, WavLM, UniSpeech, MMS, and Whisper. We propose FusionVAD, a unified framework that combines both feature types using three fusion strategies: concatenation, addition, and cross-attention (CA). Experimental results reveal that simple fusion techniques, particularly addition, outperform CA in both accuracy and efficiency. Fusion-based models consistently surpass single-feature models, highlighting the complementary nature of MFCCs and PTM features. Notably, our best-performing fusion model exceeds the state-of-the-art Pyannote across multiple datasets, achieving an absolute average improvement of 2.04%. These results confirm that simple feature fusion enhances VAD robustness while maintaining computational efficiency.
- Abstract(参考訳): 音声活動検出(VAD)は音声処理において重要な役割を担い、しばしば手作りまたは神経機能を利用する。
本研究は,Wav2vec 2.0, HuBERT, WavLM, UniSpeech, MMS, Whisper など,Mel-Frequency Cepstral Coefficients (MFCCs) とpre-trained model (PTM) の特徴について検討した。
本稿では,統合,追加,相互注意(CA)という3つの融合戦略を用いて,両方の特徴型を組み合わせた統合フレームワークFusionVADを提案する。
実験結果から, 単純な核融合法, 特に添加法はCAを精度, 効率ともに上回っていることが明らかとなった。
核融合モデルは常に単一機能モデルを超えており、MFCCとPTMの機能の相補的な性質を強調している。
特に、我々の最高のパフォーマンスの融合モデルは、複数のデータセットで最先端のPyannoteを超え、絶対平均2.04%の改善を実現しています。
これらの結果から, 簡易な特徴融合は, 計算効率を維持しつつ, VADロバスト性を高めることが確認された。
関連論文リスト
- TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition [5.9931594640934325]
クロスモーダルアテンションに基づく核融合法は高い性能と強靭性を示す。
本稿では, 変圧器を用いた適応型クロスモーダル核融合ネットワーク(TACFN)を提案する。
実験結果から,TACFNは他の手法と比較して大きな性能向上が見られた。
論文 参考訳(メタデータ) (2025-05-10T06:57:58Z) - Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation [7.627299398469962]
本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。
モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。
実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-12-19T15:53:21Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Multi-scale Quaternion CNN and BiGRU with Cross Self-attention Feature Fusion for Fault Diagnosis of Bearing [5.3598912592106345]
深層学習は断層診断(FD)に著しい進歩をもたらした
マルチスケール畳み込み畳み込みニューラルネットワーク(MQCNN)、双方向ゲートリカレントユニット(BiG)、クロス自己注意機能融合(CSAFF)を統合した新しいFDモデルを提案する。
論文 参考訳(メタデータ) (2024-05-25T07:55:02Z) - E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection [21.185032466325737]
マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを紹介する。
E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。
複数の公開データセットに対する広範なテストは、E2E-MFDの優れた機能を明らかにします。
論文 参考訳(メタデータ) (2024-03-14T12:12:17Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Unified Contrastive Fusion Transformer for Multimodal Human Action
Recognition [13.104967563769533]
我々は、Unified Contrastive Fusion Transformer (UCFFormer)と呼ばれる新しいマルチモーダル核融合アーキテクチャを導入する。
UCFFormerは、人間の行動認識(HAR)性能を向上させるために、さまざまなディストリビューションとデータを統合する。
We present the Factorized Time-Modality Attention to perform self-attention for the Unified Transformer。
論文 参考訳(メタデータ) (2023-09-10T14:10:56Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。