論文の概要: Retrieval Augmented End-to-End Spoken Dialog Models
- arxiv url: http://arxiv.org/abs/2402.01828v1
- Date: Fri, 2 Feb 2024 18:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 00:06:50.544721
- Title: Retrieval Augmented End-to-End Spoken Dialog Models
- Title(参考訳): 検索によるエンドツーエンド音声対話モデルの検討
- Authors: Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu,
Laurent El Shafey
- Abstract要約: 音声信号から直接ダイアログ状態が推測される音声対話アプリケーションにSLMを適用する。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
音声MultipleWozタスク(DSTC-11チャレンジ)を用いてReSLMを評価し,この検索によりモデル性能が向上することを確認した。
- 参考スコア(独自算出の注目度): 20.896330994089283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We recently developed SLM, a joint speech and language model, which fuses a
pretrained foundational speech model and a large language model (LLM), while
preserving the in-context learning capability intrinsic to the pretrained LLM.
In this paper, we apply SLM to speech dialog applications where the dialog
states are inferred directly from the audio signal.
Task-oriented dialogs often contain domain-specific entities, i.e.,
restaurants, hotels, train stations, and city names, which are difficult to
recognize, however, critical for the downstream applications. Inspired by the
RAG (retrieval-augmented generation) paradigm, we propose a retrieval augmented
SLM (ReSLM) that overcomes this weakness. We first train a speech retriever to
retrieve text entities mentioned in the audio. The retrieved entities are then
added as text inputs to the underlying SLM to bias model predictions. We
evaluated ReSLM on speech MultiWoz task (DSTC-11 challenge), and found that
this retrieval augmentation boosts model performance, achieving joint goal
accuracy (38.6% vs 32.7%), slot error rate (20.6% vs 24.8%) and ASR word error
rate (5.5% vs 6.7%). While demonstrated on dialog state tracking, our approach
is broadly applicable to other speech tasks requiring contextual information or
domain-specific entities, such as contextual ASR with biasing capability.
- Abstract(参考訳): 我々は最近,事前学習された基礎的発話モデルと大規模言語モデル(llm)とを融合させながら,事前学習されたllmに固有の文脈内学習能力を保った共同発話・言語モデルslmを開発した。
本稿では,音声信号から直接ダイアログ状態が推測される音声対話アプリケーションに対して,SLMを適用した。
タスク指向のダイアログには、レストラン、ホテル、駅、都市名など、ドメイン固有のエンティティが含まれていることが多いが、下流アプリケーションでは認識が難しい。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
まず,音声検索器を訓練し,音声中のテキストエンティティを検索する。
得られたエンティティは、バイアスモデル予測のために、下層のSLMにテキスト入力として追加される。
音声マルチウォズタスク (dstc-11 challenge) におけるreslmの評価を行い, この検索拡張により, 協調目標精度 (38.6% vs 32.7%), スロット誤り率 (20.6% vs 24.8%), asr単語誤り率 (5.5% vs 6.7%) が向上した。
ダイアログの状態追跡では,コンテキスト情報を必要とする他の音声タスクや,バイアスのあるコンテキストASRなどのドメイン固有のエンティティに広く適用できる。
関連論文リスト
- Effective and Efficient Conversation Retrieval for Dialogue State
Tracking with Implicit Text Summaries [51.11997829609478]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。
従来は検索キーやクエリとして生の対話コンテキストを使用していた。
会話のテキスト要約に基づいて会話検索を行う。
LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文 参考訳(メタデータ) (2024-02-20T14:31:17Z) - Unified Speech-Text Pretraining for Spoken Dialog Modeling [42.59768604228263]
本研究は, 与えられた入力音声に関連付けられた有機韻律的特徴を持つコヒーレントな音声応答を生成するための, 広範囲な音声テキストLLMフレームワークを提案する。
提案手法では,LLMのチェイン・オブ・レーソン機能を利用した多段階音声文推論方式を用いる。
提案手法は,従来のベースラインとケースドベースラインの両方に優れ,自然な音声応答を生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Are LLMs Robust for Spoken Dialogues? [10.855403629160921]
大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。
タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。
DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-01-04T14:36:38Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for
Speech Understanding [13.527613396601268]
本稿では,Speech2Textアダプタを用いた共同音声・言語モデル(SLM)を提案する。
SLMは音声情報を失わずにテキストトークン埋め込み空間に音声をマッピングする。
音声MultiWozデータセット(DSTC11チャレンジ)では、SLMはダイアログ状態追跡(DST)性能を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-08T22:33:22Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Joint Modelling of Spoken Language Understanding Tasks with Integrated
Dialog History [30.20353302347147]
本研究では,発話の意図,対話行動,話者の役割,感情を共同で予測するために,対話コンテキストを学習する新しいモデルアーキテクチャを提案する。
本実験は,タスク固有分類器と類似した結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-01T16:26:18Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。