論文の概要: Audio-video fusion strategies for active speaker detection in meetings
- arxiv url: http://arxiv.org/abs/2206.10411v1
- Date: Thu, 9 Jun 2022 08:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 01:20:54.196969
- Title: Audio-video fusion strategies for active speaker detection in meetings
- Title(参考訳): 会議におけるアクティブスピーカー検出のためのオーディオ・ビデオ融合戦略
- Authors: Lionel Pibre, Francisco Madrigal, Cyrille Equoy, Fr\'ed\'eric Lerasle,
Thomas Pellegrini, Julien Pinquier, Isabelle Ferran\'e
- Abstract要約: 本稿では,2つの視覚的モダリティと,ニューラルネットワークによる音響的モダリティを組み合わせた,アクティブ話者検出のための2種類の融合を提案する。
アプリケーションコンテキストでは、モーション情報の追加がパフォーマンスを大幅に改善します。
注意に基づく融合は, 標準偏差を低減しつつ, 性能を向上することを示した。
- 参考スコア(独自算出の注目度): 5.61861182374067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meetings are a common activity in professional contexts, and it remains
challenging to endow vocal assistants with advanced functionalities to
facilitate meeting management. In this context, a task like active speaker
detection can provide useful insights to model interaction between meeting
participants. Motivated by our application context related to advanced meeting
assistant, we want to combine audio and visual information to achieve the best
possible performance. In this paper, we propose two different types of fusion
for the detection of the active speaker, combining two visual modalities and an
audio modality through neural networks. For comparison purpose, classical
unsupervised approaches for audio feature extraction are also used. We expect
visual data centered on the face of each participant to be very appropriate for
detecting voice activity, based on the detection of lip and facial gestures.
Thus, our baseline system uses visual data and we chose a 3D Convolutional
Neural Network architecture, which is effective for simultaneously encoding
appearance and movement. To improve this system, we supplemented the visual
information by processing the audio stream with a CNN or an unsupervised
speaker diarization system. We have further improved this system by adding
visual modality information using motion through optical flow. We evaluated our
proposal with a public and state-of-the-art benchmark: the AMI corpus. We
analysed the contribution of each system to the merger carried out in order to
determine if a given participant is currently speaking. We also discussed the
results we obtained. Besides, we have shown that, for our application context,
adding motion information greatly improves performance. Finally, we have shown
that attention-based fusion improves performance while reducing the standard
deviation.
- Abstract(参考訳): ミーティングはプロフェッショナルなコンテキストにおいて共通の活動であり、ミーティング管理を促進するために高度な機能を持つ音声アシスタントに支援することは依然として困難である。
この文脈では、アクティブな話者検出のようなタスクは、ミーティング参加者間の相互作用をモデル化するための有用な洞察を提供する。
先進的なミーティングアシスタントに関連するアプリケーションコンテキストに触発された私たちは,最高のパフォーマンスを実現するために,音声と視覚情報を組み合わせたいと考えています。
本稿では,2つの視覚的モダリティと,ニューラルネットワークによる音響的モダリティを組み合わせた,アクティブ話者検出のための2種類の融合を提案する。
比較目的では、オーディオ特徴抽出のための古典的教師なしアプローチも用いられる。
顔に焦点をあてた視覚データは,唇および顔のジェスチャーの検出に基づいて,音声活動の検出に極めて適していると考えられる。
そこで,我々のベースラインシステムは視覚データを用いて,外見と動きを同時に符号化する3次元畳み込みニューラルネットワークアーキテクチャを選択した。
このシステムを改善するために,CNNや教師なし話者ダイアリゼーションシステムを用いて音声ストリームを処理することで視覚情報を補足した。
我々は,このシステムをさらに改良し,光学フローによる動きを利用した視覚モダリティ情報を付加した。
提案手法をAMIコーパスという,公開かつ最先端のベンチマークを用いて評価した。
参加者が現在話しているかどうかを判断するために,各システムの合併への貢献を分析した。
得られた結果についても検討した。
さらに,アプリケーションコンテキストにおいて,動作情報の追加は性能を大幅に向上させることを示した。
最後に,注意に基づく融合により,標準偏差を低減しつつ性能が向上することを示した。
関連論文リスト
- Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Cross modal video representations for weakly supervised active speaker
localization [39.67239953795999]
視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
映画コンテンツ中のアクティブな話者をローカライズするための弱教師付きシステムを提案する。
また,音声ビジュアル・フレームワークにおける音声活動検出の課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-03-09T18:50:50Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。