論文の概要: Tune-In: Training Under Negative Environments with Interference for
Attention Networks Simulating Cocktail Party Effect
- arxiv url: http://arxiv.org/abs/2103.01461v1
- Date: Tue, 2 Mar 2021 04:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:52:03.823475
- Title: Tune-In: Training Under Negative Environments with Interference for
Attention Networks Simulating Cocktail Party Effect
- Title(参考訳): チューンイン:カクテルパーティー効果をシミュレートした注意ネットワークに干渉するネガティブな環境下でのトレーニング
- Authors: Jun Wang, Max W. Y. Lam, Dan Su, Dong Yu
- Abstract要約: 本稿では,干渉のある否定的環境下でのトレーニング用に略されたtune-inと呼ばれる新しい注意ネットワークを提案する。
まず、共有特徴空間に基づいて、話者知識と音声刺激の2つの異なる空間を学習する。
2つの空間の間には、新しいクロスアテンション機構とデュアルアテンション機構によって情報同士がキャストされる。
- 参考スコア(独自算出の注目度): 37.697375719184926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the cocktail party problem and propose a novel attention network
called Tune-In, abbreviated for training under negative environments with
interference. It firstly learns two separate spaces of speaker-knowledge and
speech-stimuli based on a shared feature space, where a new block structure is
designed as the building block for all spaces, and then cooperatively solves
different tasks. Between the two spaces, information is cast towards each other
via a novel cross- and dual-attention mechanism, mimicking the bottom-up and
top-down processes of a human's cocktail party effect. It turns out that
substantially discriminative and generalizable speaker representations can be
learnt in severely interfered conditions via our self-supervised training. The
experimental results verify this seeming paradox. The learnt speaker embedding
has superior discriminative power than a standard speaker verification method;
meanwhile, Tune-In achieves remarkably better speech separation performances in
terms of SI-SNRi and SDRi consistently in all test modes, and especially at
lower memory and computational consumption, than state-of-the-art benchmark
systems.
- Abstract(参考訳): 本研究では, カクテルパーティー問題について検討し, 干渉を伴う負の環境下でのトレーニングを省略した, Tune-In と呼ばれる新しい注意ネットワークを提案する。
まず、共有特徴空間に基づいて話者知識と音声刺激の2つの異なる空間を学習し、そこで新しいブロック構造を全ての空間のビルディングブロックとして設計し、協調して異なるタスクを解く。
2つの空間の間には、人間のカクテルパーティ効果のボトムアップとトップダウンのプロセスを模倣した、新しいクロス・アンド・デュアル・アテンション・メカニズムによって情報を互いに向き合う。
その結果、実質的に識別可能で一般化可能な話者表現は、我々の自己監督訓練を通じて、厳しい干渉条件下で学習できることがわかった。
実験結果は、このパラドックスを検証します。
一方、tune-inはsi-snriとsdriにおいて、あらゆるテストモードで一貫して、特に最先端のベンチマークシステムよりも低いメモリと計算消費において、極めて優れた音声分離性能を達成している。
関連論文リスト
- Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions [25.490988931354185]
本稿では、ターゲット話者抽出法(TSE)と音声感情認識法(SER)を用いて、この問題に対する新たな2段階フレームワークを提案する。
まず,TSEモデルを用いて混合話者の音声を抽出し,第2段階で抽出した音声をSER訓練に用いる。
提案システムでは,TSE法を使わずに,ベースラインに比べて14.33%の非重み付き精度(UA)向上を実現している。
論文 参考訳(メタデータ) (2024-09-29T07:04:50Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification [8.90841350214225]
本稿では,音声の発話から直接部屋パラメータを推定しやすくするデュアルエンコーダアーキテクチャを提案する。
音声と音響応答を同時に埋め込むために、コントラッシブ・ロス・エンコーダ関数を用いる。
テスト段階では、残響発話のみが利用可能であり、その埋め込みはルーム形状分類のタスクに使用される。
論文 参考訳(メタデータ) (2024-06-05T10:13:55Z) - Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Learning from human perception to improve automatic speaker verification
in style-mismatched conditions [21.607777746331998]
我々の以前の実験は、人間と機械が話者識別に異なるアプローチを採っていることを示している。
我々は、人間の知覚から学んだ洞察を用いて、「CllrCE損失」と呼ぶ新しい訓練損失関数を設計する。
CllrCE損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
論文 参考訳(メタデータ) (2022-06-28T01:24:38Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。