論文の概要: Dialog act guided contextual adapter for personalized speech recognition
- arxiv url: http://arxiv.org/abs/2303.17799v1
- Date: Fri, 31 Mar 2023 05:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 15:19:07.026435
- Title: Dialog act guided contextual adapter for personalized speech recognition
- Title(参考訳): パーソナライズ音声認識のための対話行動誘導型コンテキストアダプタ
- Authors: Feng-Ju Chang, Thejaswi Muniyappa, Kanthashree Mysore Sathyendra, Kai
Wei, Grant P. Strimel, Ross McGowan
- Abstract要約: マルチターンダイアログにおけるパーソナライゼーションは、エンドツーエンドの自動音声認識(E2E ASR)モデルにとって長年の課題であった。
近年,ユーザカタログを用いた稀な単語認識に取り組みつつある。
本稿では,対話行動ガイド付きコンテキストアダプタネットワークを提案する。
- 参考スコア(独自算出の注目度): 9.672512327395435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalization in multi-turn dialogs has been a long standing challenge for
end-to-end automatic speech recognition (E2E ASR) models. Recent work on
contextual adapters has tackled rare word recognition using user catalogs. This
adaptation, however, does not incorporate an important cue, the dialog act,
which is available in a multi-turn dialog scenario. In this work, we propose a
dialog act guided contextual adapter network. Specifically, it leverages dialog
acts to select the most relevant user catalogs and creates queries based on
both -- the audio as well as the semantic relationship between the carrier
phrase and user catalogs to better guide the contextual biasing. On industrial
voice assistant datasets, our model outperforms both the baselines - dialog act
encoder-only model, and the contextual adaptation, leading to the most
improvement over the no-context model: 58% average relative word error rate
reduction (WERR) in the multi-turn dialog scenario, in comparison to the
prior-art contextual adapter, which has achieved 39% WERR over the no-context
model.
- Abstract(参考訳): マルチターンダイアログにおけるパーソナライゼーションは、エンドツーエンドの自動音声認識(E2E ASR)モデルにとって長年の課題であった。
近年,ユーザカタログを用いた稀な単語認識に取り組みつつある。
しかし、この適応には重要なキューであるダイアログアクトが組み込まれておらず、これはマルチターンダイアログのシナリオで利用できる。
本稿では,対話型act誘導型コンテキストアダプタネットワークを提案する。
具体的には、ダイアログを活用して、最も関連するユーザカタログを選択し、オーディオと、キャリア句とユーザカタログ間の意味関係の両方に基づいてクエリを作成し、コンテキストバイアスをよりよくガイドする。
産業音声アシスタントのデータセットでは、ダイアログアクトエンコーダのみのモデルと文脈適応の両方で性能が向上し、非コンテキストモデルよりも最も改善された: マルチターンダイアログシナリオにおける平均相対単語エラー率削減(WERR)は、非コンテキストモデルよりも39%のWERRを達成した先行技術であるコンテキストアダプタと比較して58%である。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Instruct Once, Chat Consistently in Multiple Rounds: An Efficient Tuning Framework for Dialogue [13.774377524019723]
マルチラウンド対話チューニング(Midi-Tuning)フレームワークを提案する。
エージェントとユーザを、大きな言語モデル上に構築された2つのアダプタで個別にモデル化する。
我々のフレームワークは従来の微調整よりも優れており、対話の整合性を改善する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-10T14:52:52Z) - Multi-User MultiWOZ: Task-Oriented Dialogues among Multiple Users [51.34484827552774]
マルチユーザMulti-User MultiWOZデータセットを2つのユーザと1つのエージェント間のタスク指向対話としてリリースする。
これらの対話は、タスク指向のシナリオにおける協調的な意思決定の興味深いダイナミクスを反映している。
本稿では,複数ユーザ間のタスク指向のチャットを簡潔なタスク指向のクエリとして書き換える,マルチユーザコンテキストクエリ書き換えの新しいタスクを提案する。
論文 参考訳(メタデータ) (2023-10-31T14:12:07Z) - Contextual Data Augmentation for Task-Oriented Dialog Systems [8.085645180329417]
本研究では,ユーザターンを生成する新しいダイアログ拡張モデルを構築し,完全なダイアログコンテキストを条件づける。
言語モデルの新しいプロンプト設計と出力の再ランク付けにより、我々のモデルから生成されたダイアログを直接使用して、下流ダイアログシステムのトレーニングを行うことができる。
論文 参考訳(メタデータ) (2023-10-16T13:22:34Z) - Adapting Task-Oriented Dialogue Models for Email Conversations [4.45709593827781]
本稿では,対話モデルの最新開発を長文会話に適用できる効果的な伝達学習フレームワーク(EMToD)を提案する。
提案するEMToDフレームワークは,事前学習した言語モデルに対する意図検出性能を45%向上し,タスク指向の電子メール会話において,事前学習した対話モデルに対する意図検出性能を30%向上することを示す。
論文 参考訳(メタデータ) (2022-08-19T16:41:34Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - What Helps Transformers Recognize Conversational Structure? Importance
of Context, Punctuation, and Labels in Dialog Act Recognition [41.1669799542627]
2つの事前訓練されたトランスフォーマーモデルを適用し、対話行動のシーケンスとして会話文を構造化する。
より広範な会話コンテキストが組み込まれていることは、多くの対話行動クラスを曖昧にするのに役立ちます。
詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。
論文 参考訳(メタデータ) (2021-07-05T21:56:00Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z) - Conversation Learner -- A Machine Teaching Tool for Building Dialog
Managers for Task-Oriented Dialog Systems [57.082447660944965]
Conversation Learnerは、ダイアログマネージャを構築するための機械学習ツールである。
ダイアログ作成者が慣れ親しんだツールを使ってダイアログフローを作成し、ダイアログフローをパラメトリックモデルに変換することができる。
ユーザシステムダイアログをトレーニングデータとして活用することで、ダイアログ作成者が時間とともにダイアログマネージャを改善することができる。
論文 参考訳(メタデータ) (2020-04-09T00:10:54Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。