論文の概要: Large Language Model Data Generation for Enhanced Intent Recognition in German Speech
- arxiv url: http://arxiv.org/abs/2508.06277v1
- Date: Fri, 08 Aug 2025 12:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.232538
- Title: Large Language Model Data Generation for Enhanced Intent Recognition in German Speech
- Title(参考訳): ドイツ語音声におけるインテント認識のための大規模言語モデルデータ生成
- Authors: Theresa Pekarek Rosin, Burak Can Kaplan, Stefan Wermter,
- Abstract要約: 音声コマンドのインテント認識(IR)は人工知能(AI)アシスタントシステムに不可欠である。
本稿では,高齢者のドイツ語音声を微調整したWhisper ASRモデルを組み合わせた新しい手法を提案する。
合成音声をテキスト音声モデルで生成し、広範囲なクロスデータセットテストを行う。
- 参考スコア(独自算出の注目度): 14.788624194380825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intent recognition (IR) for speech commands is essential for artificial intelligence (AI) assistant systems; however, most existing approaches are limited to short commands and are predominantly developed for English. This paper addresses these limitations by focusing on IR from speech by elderly German speakers. We propose a novel approach that combines an adapted Whisper ASR model, fine-tuned on elderly German speech (SVC-de), with Transformer-based language models trained on synthetic text datasets generated by three well-known large language models (LLMs): LeoLM, Llama3, and ChatGPT. To evaluate the robustness of our approach, we generate synthetic speech with a text-to-speech model and conduct extensive cross-dataset testing. Our results show that synthetic LLM-generated data significantly boosts classification performance and robustness to different speaking styles and unseen vocabulary. Notably, we find that LeoLM, a smaller, domain-specific 13B LLM, surpasses the much larger ChatGPT (175B) in dataset quality for German intent recognition. Our approach demonstrates that generative AI can effectively bridge data gaps in low-resource domains. We provide detailed documentation of our data generation and training process to ensure transparency and reproducibility.
- Abstract(参考訳): 音声コマンドのインテント認識(IR)は人工知能(AI)アシスタントシステムには不可欠であるが、既存のほとんどのアプローチは短いコマンドに限られており、主に英語で開発されている。
本稿では,高齢者のドイツ語話者の音声からのIRに着目し,これらの制約に対処する。
本稿では,3つの有名な大言語モデル(LLM)が生成する合成テキストデータセット(LeoLM,Llama3,ChatGPT)に基づいて学習したトランスフォーマーに基づく言語モデルと,高齢者のドイツ語音声(SVC-de)を微調整したWhisper ASRモデルを組み合わせた新しいアプローチを提案する。
提案手法のロバスト性を評価するため,テキスト音声モデルを用いて合成音声を生成し,広範囲なクロスデータセットテストを行う。
以上の結果から,合成LLM生成データによって分類性能と頑健性は異なる話し方や未知の語彙に著しく向上することが示唆された。
特に、より小さく、ドメイン固有の13B LLMであるLeoLMは、ドイツの意図認識のためのデータセット品質において、はるかに大きなChatGPT (175B)を上回っている。
我々のアプローチは、生成AIが低リソース領域におけるデータギャップを効果的に橋渡しできることを実証している。
私たちは、透明性と再現性を確保するために、データ生成およびトレーニングプロセスの詳細なドキュメントを提供します。
関連論文リスト
- Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - Speech Recognition Rescoring with Large Speech-Text Foundation Models [20.145389016219106]
大規模言語モデル(LLM)は、大量のテキストデータを活用することで、人間の言語を理解する能力を示した。
自動音声認識(ASR)システムは、しばしば利用可能な転写音声データによって制限される。
最近の多モーダルな言語モデルでは、強い音声言語理解が示されている。
論文 参考訳(メタデータ) (2024-09-25T06:17:23Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。