論文の概要: LoCoNet: Long-Short Context Network for Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2301.08237v1
- Date: Thu, 19 Jan 2023 18:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 14:14:01.564656
- Title: LoCoNet: Long-Short Context Network for Active Speaker Detection
- Title(参考訳): LoCoNet: アクティブ話者検出のための長短コンテキストネットワーク
- Authors: Xizi Wang, Feng Cheng, Gedas Bertasius, David Crandall
- Abstract要約: Active Speaker Detection (ASD) は、ビデオの各フレームで誰が話しているかを特定することを目的としている。
簡単な長短コンテキストネットワークであるLoCoNetを提案する。
LoCoNetは、複数のデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 14.334385838326607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active Speaker Detection (ASD) aims to identify who is speaking in each frame
of a video. ASD reasons from audio and visual information from two contexts:
long-term intra-speaker context and short-term inter-speaker context. Long-term
intra-speaker context models the temporal dependencies of the same speaker,
while short-term inter-speaker context models the interactions of speakers in
the same scene. These two contexts are complementary to each other and can help
infer the active speaker. Motivated by these observations, we propose LoCoNet,
a simple yet effective Long-Short Context Network that models the long-term
intra-speaker context and short-term inter-speaker context. We use
self-attention to model long-term intra-speaker context due to its
effectiveness in modeling long-range dependencies, and convolutional blocks
that capture local patterns to model short-term inter-speaker context.
Extensive experiments show that LoCoNet achieves state-of-the-art performance
on multiple datasets, achieving an mAP of 95.2%(+1.1%) on AVA-ActiveSpeaker,
68.1%(+22%) on Columbia dataset, 97.2%(+2.8%) on Talkies dataset and
59.7%(+8.0%) on Ego4D dataset. Moreover, in challenging cases where multiple
speakers are present, or face of active speaker is much smaller than other
faces in the same scene, LoCoNet outperforms previous state-of-the-art methods
by 3.4% on the AVA-ActiveSpeaker dataset. The code will be released at
https://github.com/SJTUwxz/LoCoNet_ASD.
- Abstract(参考訳): Active Speaker Detection (ASD) は、ビデオの各フレームで誰が話しているかを特定することを目的としている。
長期話者間コンテキストと短期話者間コンテキストの2つの文脈からの音声および視覚情報からのASD理由
長期話者間コンテキストは、同じ話者の時間的依存関係をモデル化し、短期話者間コンテキストは、同じシーンにおける話者の相互作用をモデル化する。
これら2つのコンテキストは互いに補完的であり、アクティブな話者を推測するのに役立ちます。
そこで我々は,この観測結果に動機づけられて,長期的な話者間コンテキストと短期的な話者間コンテキストをモデル化する,単純かつ効果的な長短コンテキストネットワークであるloconetを提案する。
我々は、長期依存性のモデル化における有効性や、局所パターンをキャプチャして話者間コンテキストをモデル化する畳み込みブロックにより、話者間コンテキストをモデル化する。
大規模な実験によると、LoCoNetは複数のデータセットで最先端のパフォーマンスを達成し、AVA-ActiveSpeakerで95.2%(+1.1%)、コロンビアデータセットで68.1%(+22%)、トーキーデータセットで97.2%(+2.8%)、Ego4Dデータセットで59.7%(+8.0%)のmAPを達成した。
さらに、複数の話者が存在する場合、またはアクティブスピーカーの顔が同じシーンの他の顔よりもはるかに小さい場合、LoCoNetはAVA-ActiveSpeakerデータセットで従来の最先端のメソッドを3.4%上回っている。
コードはhttps://github.com/SJTUwxz/LoCoNet_ASDで公開される。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - UniCon: Unified Context Network for Robust Active Speaker Detection [111.90529347692723]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。
私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。
異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2021-08-05T13:25:44Z) - How to Design a Three-Stage Architecture for Audio-Visual Active Speaker
Detection in the Wild [8.368543987898732]
本研究は,音声-視覚的能動話者検出のための実践的ガイドラインを提示する。
我々は、AVA-ActiveSpeakerデータセット上で93.5%のmAPで新しい最先端技術を実現するASDNetという新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-07T19:44:56Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
論文 参考訳(メタデータ) (2020-08-03T09:31:27Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。