論文の概要: Retrieval Augmented End-to-End Spoken Dialog Models
- arxiv url: http://arxiv.org/abs/2402.01828v1
- Date: Fri, 2 Feb 2024 18:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 00:06:50.544721
- Title: Retrieval Augmented End-to-End Spoken Dialog Models
- Title(参考訳): 検索によるエンドツーエンド音声対話モデルの検討
- Authors: Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu,
Laurent El Shafey
- Abstract要約: 音声信号から直接ダイアログ状態が推測される音声対話アプリケーションにSLMを適用する。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
音声MultipleWozタスク(DSTC-11チャレンジ)を用いてReSLMを評価し,この検索によりモデル性能が向上することを確認した。
- 参考スコア(独自算出の注目度): 20.896330994089283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We recently developed SLM, a joint speech and language model, which fuses a
pretrained foundational speech model and a large language model (LLM), while
preserving the in-context learning capability intrinsic to the pretrained LLM.
In this paper, we apply SLM to speech dialog applications where the dialog
states are inferred directly from the audio signal.
Task-oriented dialogs often contain domain-specific entities, i.e.,
restaurants, hotels, train stations, and city names, which are difficult to
recognize, however, critical for the downstream applications. Inspired by the
RAG (retrieval-augmented generation) paradigm, we propose a retrieval augmented
SLM (ReSLM) that overcomes this weakness. We first train a speech retriever to
retrieve text entities mentioned in the audio. The retrieved entities are then
added as text inputs to the underlying SLM to bias model predictions. We
evaluated ReSLM on speech MultiWoz task (DSTC-11 challenge), and found that
this retrieval augmentation boosts model performance, achieving joint goal
accuracy (38.6% vs 32.7%), slot error rate (20.6% vs 24.8%) and ASR word error
rate (5.5% vs 6.7%). While demonstrated on dialog state tracking, our approach
is broadly applicable to other speech tasks requiring contextual information or
domain-specific entities, such as contextual ASR with biasing capability.
- Abstract(参考訳): 我々は最近,事前学習された基礎的発話モデルと大規模言語モデル(llm)とを融合させながら,事前学習されたllmに固有の文脈内学習能力を保った共同発話・言語モデルslmを開発した。
本稿では,音声信号から直接ダイアログ状態が推測される音声対話アプリケーションに対して,SLMを適用した。
タスク指向のダイアログには、レストラン、ホテル、駅、都市名など、ドメイン固有のエンティティが含まれていることが多いが、下流アプリケーションでは認識が難しい。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
まず,音声検索器を訓練し,音声中のテキストエンティティを検索する。
得られたエンティティは、バイアスモデル予測のために、下層のSLMにテキスト入力として追加される。
音声マルチウォズタスク (dstc-11 challenge) におけるreslmの評価を行い, この検索拡張により, 協調目標精度 (38.6% vs 32.7%), スロット誤り率 (20.6% vs 24.8%), asr単語誤り率 (5.5% vs 6.7%) が向上した。
ダイアログの状態追跡では,コンテキスト情報を必要とする他の音声タスクや,バイアスのあるコンテキストASRなどのドメイン固有のエンティティに広く適用できる。
関連論文リスト
- Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models [16.920823078873095]
仮想アシスタント(VA)とのフォローアップ会話により、ユーザはキーワードを使って繰り返し呼び出すことなく、VAとシームレスに対話できる。
本稿では,従来の音声文脈とASRの不確実性との連成モデルにより,この手法が大きな利益をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-28T19:43:43Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Are LLMs Robust for Spoken Dialogues? [10.855403629160921]
大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。
タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。
DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-01-04T14:36:38Z) - Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for
Speech Understanding [13.527613396601268]
本稿では,Speech2Textアダプタを用いた共同音声・言語モデル(SLM)を提案する。
SLMは音声情報を失わずにテキストトークン埋め込み空間に音声をマッピングする。
音声MultiWozデータセット(DSTC11チャレンジ)では、SLMはダイアログ状態追跡(DST)性能を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-08T22:33:22Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。