論文の概要: End-To-End Audiovisual Feature Fusion for Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2207.13434v1
- Date: Wed, 27 Jul 2022 10:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 14:10:01.024594
- Title: End-To-End Audiovisual Feature Fusion for Active Speaker Detection
- Title(参考訳): 能動話者検出のためのエンド・ツー・エンド音声特徴融合
- Authors: Fiseha B. Tesema, Zheyuan Lin, Shiqiang Zhu, Wei Song, Jason Gu, Hong
Wu
- Abstract要約: 本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。
我々の最高の性能モデルは88.929%の精度を達成した。
- 参考スコア(独自算出の注目度): 7.631698269792165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active speaker detection plays a vital role in human-machine interaction.
Recently, a few end-to-end audiovisual frameworks emerged. However, these
models' inference time was not explored and are not applicable for real-time
applications due to their complexity and large input size. In addition, they
explored a similar feature extraction strategy that employs the ConvNet on
audio and visual inputs. This work presents a novel two-stream end-to-end
framework fusing features extracted from images via VGG-M with raw Mel
Frequency Cepstrum Coefficients features extracted from the audio waveform. The
network has two BiGRU layers attached to each stream to handle each stream's
temporal dynamic before fusion. After fusion, one BiGRU layer is attached to
model the joint temporal dynamics. The experiment result on the
AVA-ActiveSpeaker dataset indicates that our new feature extraction strategy
shows more robustness to noisy signals and better inference time than models
that employed ConvNet on both modalities. The proposed model predicts within
44.41 ms, which is fast enough for real-time applications. Our best-performing
model attained 88.929% accuracy, nearly the same detection result as
state-of-the-art -work.
- Abstract(参考訳): アクティブスピーカー検出は人間と機械の相互作用において重要な役割を果たす。
最近、いくつかのエンドツーエンドのオーディオヴィジュアルフレームワークが登場した。
しかし、これらのモデルの推論時間は探索されず、その複雑さと大きな入力サイズのためにリアルタイムアプリケーションには適用できない。
さらに、オーディオおよび視覚入力にConvNetを使用する類似の機能抽出戦略についても検討した。
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数を併用した新たな2ストリームエンドツーエンドフレームワークを提案する。
ネットワークは、各ストリームに2つのBiGRUレイヤをアタッチして、融合前に各ストリームの時間的ダイナミクスを処理する。
融合後、1つのBiGRU層が結合時間力学をモデル化するために取り付けられる。
AVA-ActiveSpeakerデータセットによる実験結果から,新しい特徴抽出戦略は,両モードでConvNetを使用したモデルよりもノイズ信号に対する堅牢性が高く,推論時間も優れていることが示された。
提案したモデルは44.41ミリ秒以内で予測され、リアルタイムアプリケーションには十分高速である。
我々の最高の性能モデルは88.929%の精度を達成した。
関連論文リスト
- Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - STMixer: A One-Stage Sparse Action Detector [48.0614066856134]
我々はSTMixerと呼ばれる新しいワンステージアクション検出器を提案する。
我々は,STMixerに識別ビデオ機能セットをマイニングする柔軟性を付与する,クエリベースの適応型特徴サンプリングモジュールを提案する。
AVA, UCF101-24, JHMDB のデータセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-03-28T10:47:06Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification [4.191965713559235]
本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
論文 参考訳(メタデータ) (2021-07-28T06:10:10Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。