Fugu-MT 論文翻訳(概要): Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking

論文の概要: Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking

arxiv url: http://arxiv.org/abs/2312.01842v1
Date: Mon, 4 Dec 2023 12:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 15:14:31.033456
Title: Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking
Title（参考訳）: 音声対話状態追跡のための合成音声データの有効性の検討
Authors: Jihyun Lee, Yejin Jeon, Wonjun Lee, Yunsu Kim, Gary Geunbae Lee
Abstract要約: 我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
参考スコア（独自算出の注目度）: 19.754211231250544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dialogue state tracking plays a crucial role in extracting information in task-oriented dialogue systems. However, preceding research are limited to textual modalities, primarily due to the shortage of authentic human audio datasets. We address this by investigating synthetic audio data for audio-based DST. To this end, we develop cascading and end-to-end models, train them with our synthetic audio dataset, and test them on actual human speech data. To facilitate evaluation tailored to audio modalities, we introduce a novel PhonemeF1 to capture pronunciation similarity. Experimental results showed that models trained solely on synthetic datasets can generalize their performance to human voice data. By eliminating the dependency on human speech data collection, these insights pave the way for significant practical advancements in audio-based DST. Data and code are available at https://github.com/JihyunLee1/E2E-DST.
Abstract（参考訳）: 対話状態追跡はタスク指向対話システムにおける情報抽出において重要な役割を果たす。しかし、先行研究はテキストのモダリティに限られており、主に人間の音声データセットが不足しているためである。音声に基づくDSTのための合成音声データを調べることでこの問題に対処する。そこで本研究では, カスカデニングモデルとエンドツーエンドモデルを開発し, 合成音声データセットを用いて学習し, 実際の音声データを用いてテストする。音声のモーダル性に合わせた評価を容易にするために,発音類似性を捉える新しいPhonemeF1を提案する。実験の結果,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。人間の音声データ収集への依存をなくすことにより、これらの知見は、音声ベースのDSTにおける重要な実践的進歩の道を開く。データとコードはhttps://github.com/JihyunLee1/E2E-DSTで入手できる。

関連論文リスト

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Synthetic Audio Helps for Cognitive State Tasks [5.372301053935417]
テキスト音声合成モデルでは,自然な音声を生成するために,認知状態の側面の追跡を学習する。我々は、認知状態モデリングに関連する7つのタスクがマルチモーダルトレーニングの恩恵を受けることを示すフレームワークであるSynthetic Audio Data Fine-tuning(SAD)を提案する。
論文参考訳（メタデータ） (2025-02-10T17:16:24Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。 2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文参考訳（メタデータ） (2024-10-02T22:05:36Z)
Pre-training with Synthetic Patterns for Audio [18.769951782213973]
本稿では,実際の音声データの代わりに合成パターンを用いた音声エンコーダの事前学習を提案する。本フレームワークは,AudioSet-2Mで事前学習したモデルに匹敵する性能を実現する。
論文参考訳（メタデータ） (2024-10-01T08:52:35Z)
A Framework for Synthetic Audio Conversations Generation using Large Language Models [0.0]
Conversa Synthは、複数のペルソナ設定を持つ大規模言語モデル(LLM)を使用して合成会話音声を生成するように設計されたフレームワークである。このフレームワークはまず、さまざまなトピックにわたる多様で一貫性のあるテキストベースの対話を生成し、その後、TTS(text-to-speech)システムを使用して音声に変換する。
論文参考訳（メタデータ） (2024-09-02T05:09:46Z)
Dissecting Temporal Understanding in Text-to-Audio Retrieval [22.17493527005141]
テキスト・音声検索の文脈において,音の時間的順序付けは未検討の問題である。特に,AudioCaps および Clotho データセット上でのテキスト音声検索のための最先端モデルの時間的理解能力について検討する。本稿では,テキストオーディオモデルにイベントの時間的順序付けに焦点をあてるロス関数を提案する。
論文参考訳（メタデータ） (2024-09-01T22:01:21Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Large-scale unsupervised audio pre-training for video-to-speech synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文参考訳（メタデータ） (2023-06-27T13:31:33Z)
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文参考訳（メタデータ） (2023-03-30T14:07:47Z)
Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文参考訳（メタデータ） (2022-03-25T13:41:17Z)
Noise Robust TTS for Low Resource Speakers using Pre-trained Model and Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文参考訳（メタデータ） (2020-05-26T06:14:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。