論文の概要: Improving the Naturalness of Simulated Conversations for End-to-End
Neural Diarization
- arxiv url: http://arxiv.org/abs/2204.11232v1
- Date: Sun, 24 Apr 2022 09:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 15:05:47.980652
- Title: Improving the Naturalness of Simulated Conversations for End-to-End
Neural Diarization
- Title(参考訳): エンドツーエンドニューラルダイアリゼーションのための模擬会話の自然性向上
- Authors: Natsuo Yamashita, Shota Horiguchi, Takeshi Homma
- Abstract要約: 本稿では,エンド・ツー・エンドニューラルダイアリゼーション(EEND)モデルトレーニングにおける自然な会話のシミュレーション手法について検討する。
話者遷移を4種類定義し,自然会話をシミュレートする。
その結果,本手法を用いてシミュレーションしたデータセットは実データと統計的に類似していることが判明した。
- 参考スコア(独自算出の注目度): 11.593955486040446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates a method for simulating natural conversation in the
model training of end-to-end neural diarization (EEND). Due to the lack of any
annotated real conversational dataset, EEND is usually pretrained on a
large-scale simulated conversational dataset first and then adapted to the
target real dataset. Simulated datasets play an essential role in the training
of EEND, but as yet there has been insufficient investigation into an optimal
simulation method. We thus propose a method to simulate natural conversational
speech. In contrast to conventional methods, which simply combine the speech of
multiple speakers, our method takes turn-taking into account. We define four
types of speaker transition and sequentially arrange them to simulate natural
conversations. The dataset simulated using our method was found to be
statistically similar to the real dataset in terms of the silence and overlap
ratios. The experimental results on two-speaker diarization using the CALLHOME
and CSJ datasets showed that the simulated dataset contributes to improving the
performance of EEND.
- Abstract(参考訳): 本稿では,エンド・ツー・エンドニューラルダイアリゼーション(EEND)モデルトレーニングにおける自然な会話のシミュレーション手法について検討する。
注釈付き実際の会話データセットがないため、EENDは通常、まず大規模なシミュレートされた会話データセット上で事前訓練され、次にターゲットの実際のデータセットに適合する。
シミュレーションデータセットは、eendのトレーニングにおいて不可欠な役割を果たすが、最適なシミュレーション方法に関する調査はまだ不十分である。
そこで本研究では自然会話音声をシミュレートする手法を提案する。
複数の話者の音声を合成する従来の手法とは対照的に,本手法はターンテイクを考慮に入れている。
話者遷移の4つのタイプを定義し、自然な会話をシミュレートするためにそれらを順次配置する。
その結果,本手法を用いてシミュレーションしたデータセットは実データと統計的に類似していることが判明した。
callhomeとcsjデータセットを用いた2話者ダイアリゼーション実験の結果,シミュレーションデータセットがeendの性能向上に寄与することがわかった。
関連論文リスト
- Controlled Randomness Improves the Performance of Transformer Models [4.678970068275123]
制御されたランダム性、すなわちノイズを訓練プロセスに導入し、微調整言語モデルを改善する。
このようなノイズを加えることで、結合したエンティティ認識と関係抽出とテキスト要約という2つの下流タスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-10-20T14:12:55Z) - Simulation-based inference using surjective sequential neural likelihood
estimation [50.24983453990065]
主観的逐次的ニューラルネットワーク類似度推定はシミュレーションに基づく推論の新しい手法である。
データを低次元空間に埋め込むことで、SSNLは高次元データセットに適用する際の従来の可能性ベースの手法が抱えるいくつかの問題を解く。
論文 参考訳(メタデータ) (2023-08-02T10:02:38Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Leveraging Real Conversational Data for Multi-Channel Continuous Speech
Separation [24.577094543380223]
既存のマルチチャネル連続音声分離(CSS)モデルは、教師付きデータに大きく依存している。
そこで本研究では,教師付きデータと大規模非教師付き実世界の会話データの両方を活用可能なCSSモデルの3段階トレーニング手法を提案する。
この手法を,任意のマイクロホンアレイから収集したマルチチャネルデータを利用する配列幾何学に依存しないCSSモデルに適用する。
論文 参考訳(メタデータ) (2022-04-07T05:45:52Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Learning to predict metal deformations in hot-rolling processes [59.00006390882099]
ホットローリング(Hot-rolling)は、入力から一連の変形を通じて断面を生成する金属成形プロセスである。
現状では、ロールの回転列と形状は、与えられた断面を達成するために必要である。
そこで本研究では,一組のロールが与えられた形状を予測するための教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T13:33:44Z) - Unnatural Language Processing: Bridging the Gap Between Synthetic and
Natural Language Data [37.542036032277466]
本稿では,言語理解問題における-simulation-to-real'転送手法を提案する。
我々のアプローチは、いくつかのドメインで自然言語データに基づいて訓練された最先端のモデルと一致または性能を向上する。
論文 参考訳(メタデータ) (2020-04-28T16:41:00Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。