論文の概要: Multimodal Attention Fusion for Target Speaker Extraction
- arxiv url: http://arxiv.org/abs/2102.01326v1
- Date: Tue, 2 Feb 2021 05:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 09:50:11.812406
- Title: Multimodal Attention Fusion for Target Speaker Extraction
- Title(参考訳): ターゲット話者抽出のためのマルチモーダルアテンション融合
- Authors: Hiroshi Sato, Tsubasa Ochiai, Keisuke Kinoshita, Marc Delcroix,
Tomohiro Nakatani, Shoko Araki
- Abstract要約: マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
- 参考スコア(独自算出の注目度): 108.73502348754842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Target speaker extraction, which aims at extracting a target speaker's voice
from a mixture of voices using audio, visual or locational clues, has received
much interest. Recently an audio-visual target speaker extraction has been
proposed that extracts target speech by using complementary audio and visual
clues. Although audio-visual target speaker extraction offers a more stable
performance than single modality methods for simulated data, its adaptation
towards realistic situations has not been fully explored as well as evaluations
on real recorded mixtures. One of the major issues to handle realistic
situations is how to make the system robust to clue corruption because in real
recordings both clues may not be equally reliable, e.g. visual clues may be
affected by occlusions. In this work, we propose a novel attention mechanism
for multi-modal fusion and its training methods that enable to effectively
capture the reliability of the clues and weight the more reliable ones. Our
proposals improve signal to distortion ratio (SDR) by 1.0 dB over conventional
fusion mechanisms on simulated data. Moreover, we also record an audio-visual
dataset of simultaneous speech with realistic visual clue corruption and show
that audio-visual target speaker extraction with our proposals successfully
work on real data.
- Abstract(参考訳): 音声,視覚的,位置的手がかりを用いた混合音声からターゲット話者の声を抽出することを目的としたターゲット話者抽出が注目されている。
近年,補完音声と視覚的手がかりを用いてターゲット音声を抽出する音声-視覚的ターゲット話者抽出法が提案されている。
音声と視覚を対象とする話者抽出はシミュレーションデータに対する単一モダリティ法よりも安定した性能を提供するが、現実の状況への適応や実記録混合物の評価は十分に検討されていない。
現実的な状況に対処する上で大きな問題の1つは、実際の記録では両方の手がかりが等しく信頼性がない可能性があるため、システムの汚職を突き止めるための堅牢化である。
視覚的な手がかりは 閉塞の影響を受けます
本研究では、マルチモーダル融合のための新しい注意メカニズムとそのトレーニング方法を提案し、より信頼性の高いものに手がかりの信頼性と重量を効果的に捉えることを可能にする。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
さらに,同時音声の音声・視覚データセットを実データを用いて記録し,提案手法による音声・視覚対象話者抽出が実データに有効であることを示す。
関連論文リスト
- Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Towards Realistic Visual Dubbing with Heterogeneous Sources [22.250010330418398]
口唇の動きを任意の音声入力と同期させることがほとんどない。
異種データのマイニングに高い柔軟性を持つ簡易で効率的な2段階のフレームワークを提案する。
本手法は,2段階のサブネットワークにおけるトレーニングコーパスを独立的に活用することを可能にする。
論文 参考訳(メタデータ) (2022-01-17T07:57:24Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。