論文の概要: Synthetic Data Generation for Phrase Break Prediction with Large Language Model
- arxiv url: http://arxiv.org/abs/2507.18044v1
- Date: Thu, 24 Jul 2025 02:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.910805
- Title: Synthetic Data Generation for Phrase Break Prediction with Large Language Model
- Title(参考訳): 大規模言語モデルを用いたフレーズブレーク予測のための合成データ生成
- Authors: Hoyeon Lee, Sejung Son, Ye-Eun Kang, Jong-Hwan Kim,
- Abstract要約: 大規模言語モデル(LLM)は、NLPにおけるデータ課題への対処に成功している。
合成フレーズブレークアノテーションの生成にLLMを活用する方法について検討する。
この結果から,LLMに基づく合成データ生成は,フレーズブレーク予測におけるデータ課題を効果的に軽減することが示唆された。
- 参考スコア(独自算出の注目度): 5.483546934298434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to phrase break prediction address crucial prosodic aspects of text-to-speech systems but heavily rely on vast human annotations from audio or text, incurring significant manual effort and cost. Inherent variability in the speech domain, driven by phonetic factors, further complicates acquiring consistent, high-quality data. Recently, large language models (LLMs) have shown success in addressing data challenges in NLP by generating tailored synthetic data while reducing manual annotation needs. Motivated by this, we explore leveraging LLM to generate synthetic phrase break annotations, addressing the challenges of both manual annotation and speech-related tasks by comparing with traditional annotations and assessing effectiveness across multiple languages. Our findings suggest that LLM-based synthetic data generation effectively mitigates data challenges in phrase break prediction and highlights the potential of LLMs as a viable solution for the speech domain.
- Abstract(参考訳): フレーズブレーク予測への現在のアプローチは、テキストから音声へのシステムの重要な韻律的な側面に対処するが、音声やテキストからの膨大な人間のアノテーションに強く依存しており、かなりの手作業とコストが生じる。
音素要因によって駆動される音声領域の連続的変動は、一貫性のある高品質なデータの取得をさらに複雑にする。
近年,大規模な言語モデル (LLM) は,手動のアノテーションの必要性を低減しつつ,調整された合成データを生成することで,NLPにおけるデータ課題に対処することに成功した。
そこで本研究では,従来のアノテーションと比較し,複数の言語にまたがる有効性を評価することによって,手動アノテーションと音声関連タスクの課題に対処する。
この結果から,LLMに基づく合成データ生成はフレーズブレーク予測におけるデータ課題を効果的に軽減し,LLMが音声領域において有効な解である可能性を強調することが示唆された。
関連論文リスト
- Unlocking Speech Instruction Data Potential with Query Rewriting [26.134056897363557]
エンド・ツー・エンドの大規模言語モデル(textbfLSLMs)は応答待ち時間と音声理解能力に強い可能性を示す。
しかし、データセットの欠如や訓練タスクの偏りが強かったため、音声指示に従う能力は十分には実現されていない。
合成音声のアノテートと検証に複数のエージェントを用いたマルチLLM知識融合によるクエリ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T13:55:45Z) - A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [3.505838221203969]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。