論文の概要: Robustness Testing of Language Understanding in Dialog Systems
- arxiv url: http://arxiv.org/abs/2012.15262v1
- Date: Wed, 30 Dec 2020 18:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:06:51.189548
- Title: Robustness Testing of Language Understanding in Dialog Systems
- Title(参考訳): 対話システムにおける言語理解のロバストネステスト
- Authors: Jiexi Liu, Ryuichi Takanobu, Jiaxin Wen, Dazhen Wan, Weiran Nie,
Hongyan Li, Cheng Li, Wei Peng, Minlie Huang
- Abstract要約: 自然言語理解モデルの頑健性に関して総合的な評価と分析を行う。
本稿では,実世界の対話システムにおける言語理解に関連する3つの重要な側面,すなわち言語多様性,音声特性,雑音摂動について紹介する。
対話システムにおける堅牢性問題をテストするための自然摂動を近似するモデル非依存型ツールキットLAUGを提案する。
- 参考スコア(独自算出の注目度): 33.30143655553583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most language understanding models in dialog systems are trained on a small
amount of annotated training data, and evaluated in a small set from the same
distribution. However, these models can lead to system failure or undesirable
outputs when being exposed to natural perturbation in practice. In this paper,
we conduct comprehensive evaluation and analysis with respect to the robustness
of natural language understanding models, and introduce three important aspects
related to language understanding in real-world dialog systems, namely,
language variety, speech characteristics, and noise perturbation. We propose a
model-agnostic toolkit LAUG to approximate natural perturbation for testing the
robustness issues in dialog systems. Four data augmentation approaches covering
the three aspects are assembled in LAUG, which reveals critical robustness
issues in state-of-the-art models. The augmented dataset through LAUG can be
used to facilitate future research on the robustness testing of language
understanding in dialog systems.
- Abstract(参考訳): ダイアログシステムにおけるほとんどの言語理解モデルは、少量の注釈付きトレーニングデータに基づいて訓練され、同じ分布から小さなセットで評価される。
しかし、これらのモデルが実際に自然摂動にさらされると、システム障害や望ましくない出力につながる可能性がある。
本稿では,自然言語理解モデルの頑健性に関する包括的評価と分析を行い,実世界の対話システムにおける言語理解に関する3つの重要な側面,すなわち言語多様性,音声特性,雑音の摂動について述べる。
本稿では,対話システムにおけるロバスト性問題をテストするために,自然な摂動を近似するモデル非依存ツールキットLAUGを提案する。
この3つの側面をカバーする4つのデータ拡張アプローチがlaugで組み立てられ、最先端モデルにおける重要な堅牢性問題を明らかにする。
LAUGによる拡張データセットは、ダイアログシステムにおける言語理解の堅牢性テストの今後の研究を促進するために使用できる。
関連論文リスト
- A Comparative Analysis of Conversational Large Language Models in
Knowledge-Based Text Generation [5.661396828160973]
本研究では,意味的三重項から自然言語文を生成する際に,対話型大規模言語モデルの実証分析を行う。
我々は、異なるプロンプト技術を用いて、異なる大きさの4つの大きな言語モデルを比較する。
この結果から,三重動詞化における大規模言語モデルの能力は,数発のプロンプト,後処理,効率的な微調整技術によって著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-02T15:26:39Z) - Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive
Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。
提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T05:16:52Z) - Evaluating Robustness of Dialogue Summarization Models in the Presence
of Naturally Occurring Variations [13.749495524988774]
実生活変動が最先端の対話要約モデルに与える影響を系統的に検討する。
発話レベルの摂動は、誤りや言語の変化によって個々の発話を変更するもので、対話レベルの摂動は非形式的交換を加えるものである。
細調整モデルと命令調整モデルの両方が入力のバリエーションの影響を受けており、後者はより感受性が高い。
論文 参考訳(メタデータ) (2023-11-15T05:11:43Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Learning Locality and Isotropy in Dialogue Modeling [28.743212772593335]
異方性と対話性のある特徴空間を構築するための単純な対話表現キャリブレーション法,すなわちSimDRCを提案する。
実験の結果,本手法は3つの対話課題における現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-05-29T06:48:53Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Language Model as an Annotator: Exploring DialoGPT for Dialogue
Summarization [29.887562761942114]
本稿では,対話応答生成のための事前学習モデルであるDialoGPTを,教師なし対話アノテータとして開発する方法を示す。
ダイアロGPTを用いて、2つの対話要約データセット(SAMSumとAMI)に3種類の特徴をラベル付けし、事前学習モデルと非訓練モデルを用いて要約する。
論文 参考訳(メタデータ) (2021-05-26T13:50:13Z) - A Short Survey of Pre-trained Language Models for Conversational AI-A
NewAge in NLP [17.10418053437171]
最近導入された事前学習言語モデルは、データ不足の問題に対処する可能性がある。
これらのモデルは、階層的関係、長期依存、感情など、異なる言語の側面を捉えることを実証している。
本論文では,これらの事前学習モデルが対話システムに関連する課題を克服できるかどうかを明らかにする。
論文 参考訳(メタデータ) (2021-04-22T01:00:56Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。