論文の概要: Improving the Naturalness of Simulated Conversations for End-to-End
Neural Diarization
- arxiv url: http://arxiv.org/abs/2204.11232v1
- Date: Sun, 24 Apr 2022 09:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 15:05:47.980652
- Title: Improving the Naturalness of Simulated Conversations for End-to-End
Neural Diarization
- Title(参考訳): エンドツーエンドニューラルダイアリゼーションのための模擬会話の自然性向上
- Authors: Natsuo Yamashita, Shota Horiguchi, Takeshi Homma
- Abstract要約: 本稿では,エンド・ツー・エンドニューラルダイアリゼーション(EEND)モデルトレーニングにおける自然な会話のシミュレーション手法について検討する。
話者遷移を4種類定義し,自然会話をシミュレートする。
その結果,本手法を用いてシミュレーションしたデータセットは実データと統計的に類似していることが判明した。
- 参考スコア(独自算出の注目度): 11.593955486040446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates a method for simulating natural conversation in the
model training of end-to-end neural diarization (EEND). Due to the lack of any
annotated real conversational dataset, EEND is usually pretrained on a
large-scale simulated conversational dataset first and then adapted to the
target real dataset. Simulated datasets play an essential role in the training
of EEND, but as yet there has been insufficient investigation into an optimal
simulation method. We thus propose a method to simulate natural conversational
speech. In contrast to conventional methods, which simply combine the speech of
multiple speakers, our method takes turn-taking into account. We define four
types of speaker transition and sequentially arrange them to simulate natural
conversations. The dataset simulated using our method was found to be
statistically similar to the real dataset in terms of the silence and overlap
ratios. The experimental results on two-speaker diarization using the CALLHOME
and CSJ datasets showed that the simulated dataset contributes to improving the
performance of EEND.
- Abstract(参考訳): 本稿では,エンド・ツー・エンドニューラルダイアリゼーション(EEND)モデルトレーニングにおける自然な会話のシミュレーション手法について検討する。
注釈付き実際の会話データセットがないため、EENDは通常、まず大規模なシミュレートされた会話データセット上で事前訓練され、次にターゲットの実際のデータセットに適合する。
シミュレーションデータセットは、eendのトレーニングにおいて不可欠な役割を果たすが、最適なシミュレーション方法に関する調査はまだ不十分である。
そこで本研究では自然会話音声をシミュレートする手法を提案する。
複数の話者の音声を合成する従来の手法とは対照的に,本手法はターンテイクを考慮に入れている。
話者遷移の4つのタイプを定義し、自然な会話をシミュレートするためにそれらを順次配置する。
その結果,本手法を用いてシミュレーションしたデータセットは実データと統計的に類似していることが判明した。
callhomeとcsjデータセットを用いた2話者ダイアリゼーション実験の結果,シミュレーションデータセットがeendの性能向上に寄与することがわかった。
関連論文リスト
- Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Amortized Probabilistic Conditioning for Optimization, Simulation and Inference [20.314865219675056]
Amortized Conditioning Engine (ACE)
興味のある潜伏変数を明示的に表現するトランスフォーマーベースのメタラーニングモデル。
ACEは、観測されたデータと解釈可能な潜伏変数の両方、実行時のプリエントを含めることができ、離散的かつ連続的なデータと潜伏変数の予測分布を出力する。
論文 参考訳(メタデータ) (2024-10-20T07:22:54Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Unnatural Language Processing: Bridging the Gap Between Synthetic and
Natural Language Data [37.542036032277466]
本稿では,言語理解問題における-simulation-to-real'転送手法を提案する。
我々のアプローチは、いくつかのドメインで自然言語データに基づいて訓練された最先端のモデルと一致または性能を向上する。
論文 参考訳(メタデータ) (2020-04-28T16:41:00Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。