論文の概要: Are LLMs Robust for Spoken Dialogues?
- arxiv url: http://arxiv.org/abs/2401.02297v1
- Date: Thu, 4 Jan 2024 14:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:59:48.491550
- Title: Are LLMs Robust for Spoken Dialogues?
- Title(参考訳): LLMは音声対話にとってロバストか?
- Authors: Seyed Mahed Mousavi, Gabriel Roccabruna, Simone Alghisi, Massimo
Rizzoli, Mirco Ravanelli, Giuseppe Riccardi
- Abstract要約: 大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。
タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。
DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
- 参考スコア(独自算出の注目度): 10.855403629160921
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Pre-Trained Language Models have demonstrated state-of-the-art
performance in different downstream tasks, including dialogue state tracking
and end-to-end response generation. Nevertheless, most of the publicly
available datasets and benchmarks on task-oriented dialogues focus on written
conversations. Consequently, the robustness of the developed models to spoken
interactions is unknown. In this work, we have evaluated the performance of
LLMs for spoken task-oriented dialogues on the DSTC11 test sets. Due to the
lack of proper spoken dialogue datasets, we have automatically transcribed a
development set of spoken dialogues with a state-of-the-art ASR engine. We have
characterized the ASR-error types and their distributions and simulated these
errors in a large dataset of dialogues. We report the intrinsic (perplexity)
and extrinsic (human evaluation) performance of fine-tuned GPT-2 and T5 models
in two subtasks of response generation and dialogue state tracking,
respectively. The results show that LLMs are not robust to spoken noise by
default, however, fine-tuning/training such models on a proper dataset of
spoken TODs can result in a more robust performance.
- Abstract(参考訳): 大規模事前学習言語モデルでは、対話状態追跡やエンドツーエンド応答生成など、さまざまなダウンストリームタスクで最先端のパフォーマンスが実証されている。
それでも、タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に焦点を当てている。
その結果、音声対話に対する発達したモデルの堅牢性は不明である。
本研究では,DSTC11 テストセット上での音声タスク指向対話における LLM の性能評価を行った。
適切な音声対話データセットがないため、我々は最先端のASRエンジンによる音声対話の開発セットを自動転写した。
我々は、ASR-error型とその分布を特徴付け、これらのエラーを対話の大規模なデータセットでシミュレートした。
応答生成と対話状態追跡の2つのサブタスクにおける微調整GPT-2とT5モデルの内在的(複雑)および外在的(人間的評価)性能について報告する。
その結果、llmはデフォルトでは音声ノイズに対して頑健ではないが、これらのモデルを適切なtodデータセット上で微調整/訓練することで、よりロバストなパフォーマンスが得られることが分かった。
関連論文リスト
- Enhancing Dialogue State Tracking Models through LLM-backed User-Agents Simulation [12.93942316816741]
GPT-4はユーザとエージェントのインタラクションをシミュレートするために使用され、DSTラベルと数千の注釈付き対話を生成する。
生成されたデータとDST予測のための実データとに基づいて、LLaMA2の2段階微調整を行う。
我々のアプローチは、現実世界のシナリオにおける動的な要求に適応し、新しいドメインでの対話を迅速に生成することもできます。
論文 参考訳(メタデータ) (2024-05-17T07:00:05Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - Dialogue Summaries as Dialogue States (DS2), Template-Guided
Summarization for Few-shot Dialogue State Tracking [16.07100713414678]
DST(Few-shot dialogue state tracking)は、この問題に対する現実的な解決策である。
本稿では,対話状態追跡を対話要約問題として再検討する。
論文 参考訳(メタデータ) (2022-03-03T07:54:09Z) - TOD-DA: Towards Boosting the Robustness of Task-oriented Dialogue
Modeling on Spoken Conversations [24.245354500835465]
本稿では,音声対話におけるタスク指向対話モデリングの堅牢性を高めるために,新しいモデルに依存しないデータ拡張パラダイムを提案する。
本手法は,音声対話におけるタスク指向対話モデリングのベンチマークであるDSTC10 Track2の両タスクにおいて,第1位となった。
論文 参考訳(メタデータ) (2021-12-23T10:04:25Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。