論文の概要: Leveraging Real Conversational Data for Multi-Channel Continuous Speech
Separation
- arxiv url: http://arxiv.org/abs/2204.03232v1
- Date: Thu, 7 Apr 2022 05:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 16:05:28.722149
- Title: Leveraging Real Conversational Data for Multi-Channel Continuous Speech
Separation
- Title(参考訳): マルチチャネル連続音声分離のための実会話データ活用
- Authors: Xiaofei Wang, Dongmei Wang, Naoyuki Kanda, Sefik Emre Eskimez, Takuya
Yoshioka
- Abstract要約: 既存のマルチチャネル連続音声分離(CSS)モデルは、教師付きデータに大きく依存している。
そこで本研究では,教師付きデータと大規模非教師付き実世界の会話データの両方を活用可能なCSSモデルの3段階トレーニング手法を提案する。
この手法を,任意のマイクロホンアレイから収集したマルチチャネルデータを利用する配列幾何学に依存しないCSSモデルに適用する。
- 参考スコア(独自算出の注目度): 24.577094543380223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-channel continuous speech separation (CSS) models are heavily
dependent on supervised data - either simulated data which causes data mismatch
between the training and real-data testing, or the real transcribed overlapping
data, which is difficult to be acquired, hindering further improvements in the
conversational/meeting transcription tasks. In this paper, we propose a
three-stage training scheme for the CSS model that can leverage both supervised
data and extra large-scale unsupervised real-world conversational data. The
scheme consists of two conventional training approaches -- pre-training using
simulated data and ASR-loss-based training using transcribed data -- and a
novel continuous semi-supervised training between the two, in which the CSS
model is further trained by using real data based on the teacher-student
learning framework. We apply this scheme to an array-geometry-agnostic CSS
model, which can use the multi-channel data collected from any microphone
array. Large-scale meeting transcription experiments are carried out on both
Microsoft internal meeting data and the AMI meeting corpus. The steady
improvement by each training stage has been observed, showing the effect of the
proposed method that enables leveraging real conversational data for CSS model
training.
- Abstract(参考訳): 既存のマルチチャネル連続音声分離(css)モデルは教師付きデータに大きく依存しており、トレーニングと実データテストの間でデータミスマッチを引き起こすシミュレーションデータか、取得が難しい実際の転写重複データのいずれかであり、会話/会議転写タスクのさらなる改善を妨げている。
本稿では,教師付きデータと大規模非教師付き実世界の会話データの両方を活用可能なCSSモデルの3段階トレーニング手法を提案する。
このスキームは、シミュレーションデータを用いた事前トレーニングと、書き起こされたデータを用いたasr-lossベースのトレーニングの2つの従来のトレーニングアプローチと、教師と教師の学習フレームワークに基づく実データを用いてcssモデルをさらに訓練する2つの新しい半教師付きトレーニングで構成されている。
この方式を,任意のマイクロホンアレイから収集したマルチチャネルデータを用いたアレイジオメトリ非依存cssモデルに適用する。
Microsoftの内部会議データとAMI会議コーパスの両方で大規模な会議書き起こし実験を行う。
各トレーニングステージによる着実に改善が観察され、cssモデルトレーニングに実際の会話データを活用するための提案手法の効果が示された。
関連論文リスト
- Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Multimodal Sequential Generative Models for Semi-Supervised Language
Instruction Following [26.386772715777223]
本稿では,タスクの指示における半教師付き学習のためのマルチモーダル生成モデルを提案する。
モデルは、ペア化されたデータの共有表現を学習し、未ペアデータの再構築によって半教師付き学習を可能にする。
BabyAIおよびRoom-to-Room環境における実験により,提案手法は未ペアデータを活用することにより,命令の処理性能を向上させることを示した。
論文 参考訳(メタデータ) (2022-12-29T03:23:43Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - Improving the Naturalness of Simulated Conversations for End-to-End
Neural Diarization [11.593955486040446]
本稿では,エンド・ツー・エンドニューラルダイアリゼーション(EEND)モデルトレーニングにおける自然な会話のシミュレーション手法について検討する。
話者遷移を4種類定義し,自然会話をシミュレートする。
その結果,本手法を用いてシミュレーションしたデータセットは実データと統計的に類似していることが判明した。
論文 参考訳(メタデータ) (2022-04-24T09:55:32Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。