論文の概要: Spoken Conversational Agents with Large Language Models
- arxiv url: http://arxiv.org/abs/2512.02593v1
- Date: Tue, 02 Dec 2025 10:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.814197
- Title: Spoken Conversational Agents with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた音声対話エージェント
- Authors: Chao-Han Huck Yang, Andreas Stolcke, Larry Heck,
- Abstract要約: このチュートリアルは、カスケードされたASR/NLUから、エンドツーエンドの検索および視覚接地システムへのパスを蒸留する。
テキストLLMを音声、モーダルアライメント、共同音声テキスト訓練に適用する。
- 参考スコア(独自算出の注目度): 38.641014915944425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken conversational agents are converging toward voice-native LLMs. This tutorial distills the path from cascaded ASR/NLU to end-to-end, retrieval-and vision-grounded systems. We frame adaptation of text LLMs to audio, cross-modal alignment, and joint speech-text training; review datasets, metrics, and robustness across accents and compare design choices (cascaded vs. E2E, post-ASR correction, streaming). We link industrial assistants to current open-domain and task-oriented agents, highlight reproducible baselines, and outline open problems in privacy, safety, and evaluation. Attendees leave with practical recipes and a clear systems-level roadmap.
- Abstract(参考訳): 音声対話エージェントは音声ネイティブLLMに向かって収束している。
このチュートリアルは、カスケードされたASR/NLUから、エンドツーエンドの検索および視覚接地システムへのパスを蒸留する。
テキストLLMをオーディオ、クロスモーダルアライメント、共同音声テキストトレーニングに適応させ、アクセント間のデータセット、メトリクス、ロバスト性をレビューし、設計選択(カスケード対E2E、ASR後の修正、ストリーミング)を比較する。
産業アシスタントを現在のオープンドメインおよびタスク指向エージェントにリンクし、再現可能なベースラインを強調し、プライバシー、安全性、評価におけるオープンな問題を概説する。
実践的なレシピと明確なシステムレベルのロードマップを持って出発する。
関連論文リスト
- ALAS: Measuring Latent Speech-Text Alignment For Spoken Language Understanding In Multimodal LLMs [11.696352577108211]
ALAS(Automatic Latent Alignment Score)は、トランスフォーマー層間の音声とテキストの表現の相関を測定することでアライメントを評価するメトリクスである。
Spoken Question Answering and Emotion Recognitionの実験によると、ALASはタスクやレイヤ間で意味のあるパターンをキャプチャする。
論文 参考訳(メタデータ) (2025-05-26T13:02:44Z) - Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文 参考訳(メタデータ) (2024-09-25T20:59:12Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。