論文の概要: RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems
- arxiv url: http://arxiv.org/abs/2012.14666v1
- Date: Tue, 29 Dec 2020 08:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 04:14:31.550370
- Title: RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems
- Title(参考訳): RADDLE:ロバストなタスク指向対話システムのための評価ベンチマークと分析プラットフォーム
- Authors: Baolin Peng, Chunyuan Li, Zhu Zhang, Chenguang Zhu, Jinchao Li,
Jianfeng Gao
- Abstract要約: 我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 75.87418236410296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For task-oriented dialog systems to be maximally useful, it must be able to
process conversations in a way that is (1) generalizable with a small number of
training examples for new task domains, and (2) robust to user input in various
styles, modalities or domains. In pursuit of these goals, we introduce the
RADDLE benchmark, a collection of corpora and tools for evaluating the
performance of models across a diverse set of domains. By including tasks with
limited training data, RADDLE is designed to favor and encourage models with a
strong generalization ability. RADDLE also includes a diagnostic checklist that
facilitates detailed robustness analysis in aspects such as language
variations, speech errors, unseen entities, and out-of-domain utterances. We
evaluate recent state-of-the-art systems based on pre-training and fine-tuning,
and find that grounded pre-training on heterogeneous dialog corpora performs
better than training a separate model per domain. Overall, existing models are
less than satisfactory in robustness evaluation, which suggests opportunities
for future improvement.
- Abstract(参考訳): タスク指向対話システムが最大限に有用であるためには、(1)新しいタスクドメインの訓練例を少数含む一般化可能な方法で会話を処理でき、(2)様々なスタイル、モダリティ、ドメインでのユーザ入力に対して堅牢である必要がある。
これらの目標を追求するために、様々なドメインのモデルのパフォーマンスを評価するためのコーパスとツールの集合であるraddle benchmarkを紹介します。
限られた訓練データを持つタスクを含めることで、RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
RADDLEには、言語の変化、音声エラー、見えないエンティティ、ドメイン外発話といった側面において、詳細な堅牢性分析を容易にする診断チェックリストも含まれている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
全体として、既存のモデルは堅牢性評価に満足できないため、将来の改善の機会が示唆される。
関連論文リスト
- R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Zero-Shot Generalizable End-to-End Task-Oriented Dialog System using
Context Summarization and Domain Schema [2.7178968279054936]
タスク指向対話システムにおける最先端のアプローチは、条件付きシーケンス生成タスクとして問題を定式化する。
これは、新しいドメインまたはタスクごとにラベル付きトレーニングデータを必要とする。
本稿では,ZS-ToDという,Zero-Shotの汎用的なエンドツーエンドタスク指向ダイアログシステムについて紹介する。
論文 参考訳(メタデータ) (2023-03-28T18:56:31Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - DiSTRICT: Dialogue State Tracking with Retriever Driven In-Context
Tuning [7.5700317050237365]
対話状態追跡(DST)のための一般化可能なインコンテキストチューニング手法であるDiSTRICTを提案する。
DSTRICTは、手作りのテンプレートを使わずにモデルを微調整するために、与えられた対話のための非常に関連性の高いトレーニング例を検索する。
MultiWOZベンチマークデータセットによる実験では、DiSTRICTは、さまざまなゼロショットおよび少数ショット設定において、既存のアプローチよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-12-06T09:40:15Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Representation Learning for Conversational Data using Discourse Mutual
Information Maximization [9.017156603976915]
構造を意識しない単語・バイ・ワード生成は効果的な会話モデリングには適さないと我々は主張する。
対話表現モデルの学習のための構造認識型相互情報に基づく損失関数DMIを提案する。
本モデルでは,対話評価タスクであるDailyDialog++において,ランダムな負のシナリオと逆のシナリオの両方において,最も有望な性能を示す。
論文 参考訳(メタデータ) (2021-12-04T13:17:07Z) - Self-training Improves Pre-training for Few-shot Learning in
Task-oriented Dialog Systems [47.937191088981436]
大規模事前訓練型言語モデルでは、ToDで数発の学習を行う上で有望な結果が示されている。
本稿では,より強力な学生モデルを訓練するために,最も自信のないラベル付きデータを反復的にラベル付けする自己学習手法を提案する。
目的分類,ダイアログ状態追跡,ダイアログアクト予測,応答選択など,ToDの4つの下流タスクに関する実験と分析を行った。
論文 参考訳(メタデータ) (2021-08-28T07:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。