論文の概要: OLISIA: a Cascade System for Spoken Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2304.11073v1
- Date: Thu, 20 Apr 2023 09:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:04:37.621922
- Title: OLISIA: a Cascade System for Spoken Dialogue State Tracking
- Title(参考訳): OLISIA:音声対話状態追跡のためのカスケードシステム
- Authors: L\'eo Jacqmin, Lucas Druart (LIA), Valentin Vielzeuf, Lina Maria
Rojas-Barahona, Yannick Est\`eve (LIA), Beno\^it Favre
- Abstract要約: OLISIAは、自動音声認識(ASR)モデルと対話状態追跡(DST)モデルを統合するカスケードシステムである。
ASRおよびDSTモジュールにいくつかの適応を導入し、音声会話の統合性や堅牢性を向上させる。
ASR出力の正規化とデータ拡張によるDST入力の適応と、事前学習したモデルサイズの増加は、すべて、文字と音声の会話における性能の相違を低減する上で重要な役割を担っている。
- 参考スコア(独自算出の注目度): 3.2173356269603604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though Dialogue State Tracking (DST) is a core component of spoken dialogue
systems, recent work on this task mostly deals with chat corpora, disregarding
the discrepancies between spoken and written language.In this paper, we propose
OLISIA, a cascade system which integrates an Automatic Speech Recognition (ASR)
model and a DST model. We introduce several adaptations in the ASR and DST
modules to improve integration and robustness to spoken conversations.With
these adaptations, our system ranked first in DSTC11 Track 3, a benchmark to
evaluate spoken DST. We conduct an in-depth analysis of the results and find
that normalizing the ASR outputs and adapting the DST inputs through data
augmentation, along with increasing the pre-trained models size all play an
important role in reducing the performance discrepancy between written and
spoken conversations.
- Abstract(参考訳): 対話状態追跡(DST)は音声対話システムの中核的な要素であるが,近年の作業はチャットコーパスを主に扱い,音声と文字の相違を無視するものである。本稿では,自動音声認識(ASR)モデルとDSTモデルを統合するカスケードシステムであるOLISIAを提案する。
本研究では,音声対話に対する統合性と堅牢性を向上させるために,ASRおよびDSTモジュールにいくつかの適応を導入し,DSTC11 Track 3 にランク付けした。
結果の詳細な分析を行い、asr出力の正規化とデータ拡張によるdst入力の適応、および事前学習されたモデルサイズの増加が、文字と音声の対話におけるパフォーマンスのばらつきを軽減する上で重要な役割を果たすことを見出した。
関連論文リスト
- Injecting linguistic knowledge into BERT for Dialogue State Tracking [60.42231674887294]
本稿では,教師なしの枠組みを用いて言語知識を抽出する手法を提案する。
次に、この知識を用いて、対話状態追跡(DST)タスクにおけるBERTの性能と解釈可能性を高める。
このフレームワークを様々なDSTタスクでベンチマークし、精度の顕著な改善を観察する。
論文 参考訳(メタデータ) (2023-11-27T08:38:42Z) - S3-DST: Structured Open-Domain Dialogue Segmentation and State Tracking
in the Era of LLMs [22.319211779438934]
LLM(Large Language Model)ベースのチャットシステムが出現すると、オープンドメイン対話に多くの現実世界の複雑さがもたらされた。
オープンドメイン対話システムにおいて,セグメントごとの対話セグメントと状態トラッキングを提案する。
我々は、匿名化されたオープンドメイン対話データセットと、公開されているDSTおよびセグメンテーションデータセットを用いて、S3-DSTを評価する。
論文 参考訳(メタデータ) (2023-09-16T00:59:23Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Adapting Text-based Dialogue State Tracker for Spoken Dialogues [20.139351605832665]
本稿では,DSTC11における音声認識対話システム技術課題トラックに参画した,高度に成功を収めたモデルの構築に向けた技術的取り組みについて述べる。
本モデルは,(1)音声音声とテキスト音声のギャップを埋める自動音声認識誤差補正,(2)スロット記述を用いてスロットと値を推定するテキストベース対話システム(D3ST),(3)推定スロット値の誤差を復元する後処理の3つの主要モジュールから構成される。
論文 参考訳(メタデータ) (2023-08-29T06:27:58Z) - KILDST: Effective Knowledge-Integrated Learning for Dialogue State
Tracking using Gazetteer and Speaker Information [3.342637296393915]
対話状態追跡(DST)は、対話システムにおける中核的な研究であり、多くの注目を集めている。
ユーザ間の対話に対処できる新たな問題を,ユーザ間の対話から情報を抽出し,推奨する対話型AIへのステップとして定義する必要がある。
イベントのスケジューリングに関するユーザ間の対話(DST-S)からの新しいタスクDSTを導入する。
DST-Sタスクは、ユーザ間の対話における対話を理解し、追跡し、誰がスケジュールを提案し、誰が提案されたスケジュールに同意したかを理解する必要があるため、はるかに難しい。
論文 参考訳(メタデータ) (2023-01-18T07:11:56Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - Prompt Learning for Few-Shot Dialogue State Tracking [75.50701890035154]
本稿では,限られたラベル付きデータを用いて,対話状態追跡(DST)モデルを効率的に学習する方法に焦点を当てる。
本稿では,2つの主要なコンポーネントである値ベースプロンプトと逆プロンプト機構からなる,数ショットDSTのためのプロンプト学習フレームワークを設計する。
実験により、我々のモデルは未確認のスロットを生成し、既存の最先端の数ショット法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-15T07:37:33Z) - Adapting Document-Grounded Dialog Systems to Spoken Conversations using
Data Augmentation and a Noisy Channel Model [46.93744191416991]
第10回ダイアログ・システム・テクノロジー・チャレンジ(DSTC10)第2章の報告を要約する。
このタスクは3つのサブタスクから構成される: ターンが知識を求めるかどうかを検知し、関連する知識文書を選択し、最後に接地された応答を生成する。
ベストシステムは,課題の人的評価において,第1位,第3位を達成できた。
論文 参考訳(メタデータ) (2021-12-16T12:51:52Z) - Improving Longer-range Dialogue State Tracking [22.606650177804966]
対話状態追跡(DST)はタスク指向対話システムにおいて重要な要素である。
本稿では,より長い対話処理を特に重視したDSTの全体的な性能向上を目指す。
論文 参考訳(メタデータ) (2021-02-27T02:44:28Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。