論文の概要: A Light Weight Model for Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2303.04439v1
- Date: Wed, 8 Mar 2023 08:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:40:36.768755
- Title: A Light Weight Model for Active Speaker Detection
- Title(参考訳): アクティブ話者検出のための軽量モデル
- Authors: Junhua Liao, Haihan Duan, Kanghui Feng, Wanbing Zhao, Yanbing Yang and
Liangyin Chen
- Abstract要約: 入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
- 参考スコア(独自算出の注目度): 7.253335671577093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active speaker detection is a challenging task in audio-visual scenario
understanding, which aims to detect who is speaking in one or more speakers
scenarios. This task has received extensive attention as it is crucial in
applications such as speaker diarization, speaker tracking, and automatic video
editing. The existing studies try to improve performance by inputting multiple
candidate information and designing complex models. Although these methods
achieved outstanding performance, their high consumption of memory and
computational power make them difficult to be applied in resource-limited
scenarios. Therefore, we construct a lightweight active speaker detection
architecture by reducing input candidates, splitting 2D and 3D convolutions for
audio-visual feature extraction, and applying gated recurrent unit (GRU) with
low computational complexity for cross-modal modeling. Experimental results on
the AVA-ActiveSpeaker dataset show that our framework achieves competitive mAP
performance (94.1% vs. 94.2%), while the resource costs are significantly lower
than the state-of-the-art method, especially in model parameters (1.0M vs.
22.5M, about 23x) and FLOPs (0.6G vs. 2.6G, about 4x). In addition, our
framework also performs well on the Columbia dataset showing good robustness.
The code and model weights are available at
https://github.com/Junhua-Liao/Light-ASD.
- Abstract(参考訳): アクティブな話者検出(active speaker detection)は、音声と視覚のシナリオ理解において困難なタスクである。
このタスクは、話者ダイアリゼーション、話者追跡、自動ビデオ編集などのアプリケーションにおいて重要であるため、広く注目を集めている。
既存の研究は、複数の候補情報を入力し、複雑なモデルを設計することで、パフォーマンスの向上を試みている。
これらの手法は優れた性能を発揮するが、メモリ消費と計算能力が高いため、リソース制限のシナリオに適用することは困難である。
そこで我々は,入力候補を減らし,音声・視覚的特徴抽出のための2次元および3次元畳み込みを分割し,計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに適用し,軽量なアクティブ話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果から,我々のフレームワークは競争力のあるmAP性能(94.1% vs. 94.2%)を達成し,特にモデルパラメータ(1.0M vs. 22.5M, 約23x)とFLOP(0.6G vs. 2.6G, 約4x)において,資源コストは最先端手法よりも著しく低いことがわかった。
さらに,当社のフレームワークは,コロンビアデータセットでも堅牢性を示す上でも良好に機能します。
コードとモデルの重み付けはhttps://github.com/Junhua-Liao/Light-ASDで確認できる。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by
Connecting Foundation Models [14.538853403226751]
基礎モデル(FM)の上に人工知能システムを構築することは、AI研究の新たなパラダイムになりつつある。
本稿では,基礎モデル,特にCLIP,CLAP,AudioLDMを活用することで,この問題に対する軽量な解決策を提案する。
提案手法では,V2A-Mapperを高速に訓練し,高忠実で視覚的に整合した音を生成する。
論文 参考訳(メタデータ) (2023-08-18T04:49:38Z) - End-To-End Audiovisual Feature Fusion for Active Speaker Detection [7.631698269792165]
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。
我々の最高の性能モデルは88.929%の精度を達成した。
論文 参考訳(メタデータ) (2022-07-27T10:25:59Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - UniCon: Unified Context Network for Robust Active Speaker Detection [111.90529347692723]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。
私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。
異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2021-08-05T13:25:44Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。