論文の概要: Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking
- arxiv url: http://arxiv.org/abs/2312.01842v1
- Date: Mon, 4 Dec 2023 12:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:14:31.033456
- Title: Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking
- Title(参考訳): 音声対話状態追跡のための合成音声データの有効性の検討
- Authors: Jihyun Lee, Yejin Jeon, Wonjun Lee, Yunsu Kim, Gary Geunbae Lee
- Abstract要約: 我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。
実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
- 参考スコア(独自算出の注目度): 19.754211231250544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue state tracking plays a crucial role in extracting information in
task-oriented dialogue systems. However, preceding research are limited to
textual modalities, primarily due to the shortage of authentic human audio
datasets. We address this by investigating synthetic audio data for audio-based
DST. To this end, we develop cascading and end-to-end models, train them with
our synthetic audio dataset, and test them on actual human speech data. To
facilitate evaluation tailored to audio modalities, we introduce a novel
PhonemeF1 to capture pronunciation similarity. Experimental results showed that
models trained solely on synthetic datasets can generalize their performance to
human voice data. By eliminating the dependency on human speech data
collection, these insights pave the way for significant practical advancements
in audio-based DST. Data and code are available at
https://github.com/JihyunLee1/E2E-DST.
- Abstract(参考訳): 対話状態追跡はタスク指向対話システムにおける情報抽出において重要な役割を果たす。
しかし、先行研究はテキストのモダリティに限られており、主に人間の音声データセットが不足しているためである。
音声に基づくDSTのための合成音声データを調べることでこの問題に対処する。
そこで本研究では, カスカデニングモデルとエンドツーエンドモデルを開発し, 合成音声データセットを用いて学習し, 実際の音声データを用いてテストする。
音声のモーダル性に合わせた評価を容易にするために,発音類似性を捉える新しいPhonemeF1を提案する。
実験の結果,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
人間の音声データ収集への依存をなくすことにより、これらの知見は、音声ベースのDSTにおける重要な実践的進歩の道を開く。
データとコードはhttps://github.com/JihyunLee1/E2E-DSTで入手できる。
関連論文リスト
- Learning Audio Concepts from Counterfactual Natural Language [34.118579918018725]
本研究では,音声領域における因果推論と反事実解析を紹介する。
本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。
具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
論文 参考訳(メタデータ) (2024-01-10T05:15:09Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for
Audio-Language Multimodal Research [90.01270531446059]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Faked Speech Detection with Zero Knowledge [2.5515299924109858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
提案モデルは,大規模な音声データセットから抽出した重要な特徴の集合に基づいて訓練された。
比較のために,被験者を母語話者とし,人間の検査によって音声も分類した。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Artificially Synthesising Data for Audio Classification and Segmentation
to Improve Speech and Music Detection in Radio Broadcast [0.0]
無線信号に類似したデータを人工的に合成する新しい手順を提案する。
この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2021-02-19T14:47:05Z) - Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-26T06:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。