論文の概要: A Real-Time Active Speaker Detection System Integrating an Audio-Visual
Signal with a Spatial Querying Mechanism
- arxiv url: http://arxiv.org/abs/2309.08295v1
- Date: Fri, 15 Sep 2023 10:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:04:02.543135
- Title: A Real-Time Active Speaker Detection System Integrating an Audio-Visual
Signal with a Spatial Querying Mechanism
- Title(参考訳): 空間問合せ機構を用いた実時間アクティブ話者検出システム
- Authors: Ilya Gurvich, Ido Leichter, Dharmendar Reddy Palle, Yossi Asher, Alon
Vinnikov, Igor Abramovski, Vishak Gopal, Ross Cutler, Eyal Krupka
- Abstract要約: 低消費電力エッジコンピューティングに最適化されたリアルタイム,因果的,ニューラルネットワークに基づくアクティブ話者検出システムを導入する。
このシステムは仮想撮影モジュールを駆動し、商用デバイスにデプロイされる。
参加者14人とのミーティングには,参加者1人当たり127 MFLOPしか必要としない。
- 参考スコア(独自算出の注目度): 9.126447001614785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a distinctive real-time, causal, neural network-based active
speaker detection system optimized for low-power edge computing. This system
drives a virtual cinematography module and is deployed on a commercial device.
The system uses data originating from a microphone array and a 360-degree
camera. Our network requires only 127 MFLOPs per participant, for a meeting
with 14 participants. Unlike previous work, we examine the error rate of our
network when the computational budget is exhausted, and find that it exhibits
graceful degradation, allowing the system to operate reasonably well even in
this case. Departing from conventional DOA estimation approaches, our network
learns to query the available acoustic data, considering the detected head
locations. We train and evaluate our algorithm on a realistic meetings dataset
featuring up to 14 participants in the same meeting, overlapped speech, and
other challenging scenarios.
- Abstract(参考訳): 低消費電力エッジコンピューティングに最適化されたリアルタイム・因果的・ニューラルネットワークに基づくアクティブ話者検出システムを導入する。
このシステムは仮想撮影モジュールを駆動し、商用デバイスにデプロイされる。
このシステムは、マイクロホンアレイと360度カメラからのデータを使用する。
参加者14人とのミーティングには,参加者当たり127 MFLOPしか必要としない。
従来とは違って,計算予算が枯渇した際のネットワークのエラー率を調べ,優雅な劣化が見られ,この場合においてもシステムが合理的に動作可能であることを確認する。
従来のDOA推定手法とは別に,検出した頭部位置を考慮し,利用可能な音響データを検索する。
アルゴリズムを、14人までの参加者が同じミーティング、重複したスピーチ、その他の困難なシナリオを含む、現実的なミーティングデータセットでトレーニングし、評価する。
関連論文リスト
- Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning [2.3076690318595676]
本稿では,ネットワーク型IoTオーディオデバイスを対象とした,計算効率のよい分散話者ダイアリゼーションフレームワークを提案する。
フェデレートラーニングモデルは、トレーニングのための大規模なオーディオデータベースを必要とせずに、会話に参加する参加者を特定することができる。
話者埋め込みのコサイン類似性に依存するフェデレートラーニングモデルに対して、教師なしオンライン更新機構を提案する。
論文 参考訳(メタデータ) (2024-04-16T18:40:28Z) - Audio-video fusion strategies for active speaker detection in meetings [5.61861182374067]
本稿では,2つの視覚的モダリティと,ニューラルネットワークによる音響的モダリティを組み合わせた,アクティブ話者検出のための2種類の融合を提案する。
アプリケーションコンテキストでは、モーション情報の追加がパフォーマンスを大幅に改善します。
注意に基づく融合は, 標準偏差を低減しつつ, 性能を向上することを示した。
論文 参考訳(メタデータ) (2022-06-09T08:20:52Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Blind Speech Separation and Dereverberation using Neural Beamforming [28.7807578839021]
本稿では,Blind Speech Separation and Dereverberation (BSSD) ネットワークについて述べる。
話者分離は、予め定義された空間的手がかりのセットによって導かれる。
残響は神経ビームフォーミングを用いて行われ、話者識別は埋め込みベクトルと三重項マイニングによって支援される。
論文 参考訳(メタデータ) (2021-03-24T18:43:52Z) - The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker
Diarisation Challenge [6.6238321827660345]
本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。
我々のダイアリゼーションシステムは、入力音声信号のフロントエンドとして、よく訓練されたニューラルネットワークに基づく音声強調モデルから成り立っている。
論文 参考訳(メタデータ) (2020-10-22T12:42:07Z) - Identity-Aware Attribute Recognition via Real-Time Distributed Inference
in Mobile Edge Clouds [53.07042574352251]
我々は、MEC対応カメラ監視システムにおいて、re-IDを用いた歩行者属性認識のための新しいモデルの設計を行う。
本稿では,属性認識と人物再IDを協調的に考慮し,分散モジュールの集合を持つ新しい推論フレームワークを提案する。
そこで我々は,提案した分散推論フレームワークのモジュール分布の学習に基づくアルゴリズムを考案した。
論文 参考訳(メタデータ) (2020-08-12T12:03:27Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。