論文の概要: Evaluating Groundedness in Dialogue Systems: The BEGIN Benchmark
- arxiv url: http://arxiv.org/abs/2105.00071v1
- Date: Fri, 30 Apr 2021 20:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:08:53.719529
- Title: Evaluating Groundedness in Dialogue Systems: The BEGIN Benchmark
- Title(参考訳): 対話システムにおける基底性の評価:BEGINベンチマーク
- Authors: Nouha Dziri, Hannah Rashkin, Tal Linzen, David Reitter
- Abstract要約: 知識ベースの対話エージェントは、Wikipediaページなどの外部に提供される背景情報に基づいて会話を行うように設計されたシステムです。
BEGIN(Benchmark for Evaluation of Grounded Interaction)について紹介します。
beginは、言語モデルに基づく対話システムによって生成された8113の対話ターンからなり、システムの応答と背景情報の関係を人間の注釈で指定する。
- 参考スコア(独自算出の注目度): 29.722504033424382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-grounded dialogue agents are systems designed to conduct a
conversation based on externally provided background information, such as a
Wikipedia page. Such dialogue agents, especially those based on neural network
language models, often produce responses that sound fluent but are not
justified by the background information. Progress towards addressing this
problem requires developing automatic evaluation metrics that can quantify the
extent to which responses are grounded in background information. To facilitate
evaluation of such metrics, we introduce the Benchmark for Evaluation of
Grounded INteraction (BEGIN). BEGIN consists of 8113 dialogue turns generated
by language-model-based dialogue systems, accompanied by humans annotations
specifying the relationship between the system's response and the background
information. These annotations are based on an extension of the natural
language inference paradigm. We use the benchmark to demonstrate the
effectiveness of adversarially generated data for improving an evaluation
metric based on existing natural language inference datasets.
- Abstract(参考訳): 知識基底対話エージェントは、ウィキペディアページのような外部から提供された背景情報に基づいて会話を行うように設計されたシステムである。
このような対話エージェント、特にニューラルネットワーク言語モデルに基づくエージェントは、しばしば、流動的に聞こえるが背景情報によって正当化されない応答を生成する。
この問題への取り組みの進展には、背景情報にどの応答が基づいているかを定量化できる自動評価メトリクスの開発が必要である。
このような指標の評価を容易にするため,BEGIN (Benchmark for Evaluation of Grounded Interaction) を提案する。
beginは、言語モデルに基づく対話システムによって生成された8113の対話ターンからなり、システムの応答と背景情報の関係を人間の注釈で指定する。
これらのアノテーションは自然言語推論パラダイムの拡張に基づいている。
このベンチマークを用いて,既存の自然言語推論データセットに基づく評価基準の改善に,逆生成データの有効性を示す。
関連論文リスト
- Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - PK-Chat: Pointer Network Guided Knowledge Driven Generative Dialogue
Model [79.64376762489164]
PK-Chatは、知識グラフ上のポインタネットワークと、事前訓練された言語モデルを組み合わせた、ポインタネットワーク誘導生成対話モデルである。
PK-Chatが対話で生成した単語は、単語リストの予測と外部知識グラフ知識の直接予測から導かれる。
PK-Chatに基づく対話システムは、地球科学の学術シナリオ向けに構築されている。
論文 参考訳(メタデータ) (2023-04-02T18:23:13Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Increasing Faithfulness in Knowledge-Grounded Dialogue with Controllable
Features [16.676172815172166]
本稿では,これらの証拠に忠実に保たれるように制御されたシステムに対して,生成的ニューラルダイアログモデルを訓練する上での課題について論じる。
既存のデータセットには、選択されたエビデンスに忠実な会話応答と、より主観的あるいはチトチャットスタイルの応答が混在している。
そこで本稿では,情報量と客観性を定量化することにより,これらの応答の異なるスタイルを解消するための異なる評価手法を提案する。
論文 参考訳(メタデータ) (2021-07-14T19:52:12Z) - Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。
複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文 参考訳(メタデータ) (2021-05-06T10:30:13Z) - On the Use of Linguistic Features for the Evaluation of Generative
Dialogue Systems [17.749995931459136]
言語的特徴に基づく指標は,人間の判断と良好な相関を維持し,解釈可能であることを示唆する。
この提案を支持するために,複数の対話モデルによって生成された対話のさまざまな言語的特徴を計測し,分析する。
特徴の振る舞いはテストされたモデルの既知の特性と一致し、ドメイン間で類似していることが分かりました。
論文 参考訳(メタデータ) (2021-04-13T16:28:00Z) - Natural Language Understanding for Argumentative Dialogue Systems in the
Opinion Building Domain [6.951113351928047]
本稿では,情報検索領域における議論的対話システムの枠組みを提案する。
提案手法は,複数のユーザの意図を識別し,ユーザが自然言語で参照するシステム引数を識別する。
論文 参考訳(メタデータ) (2021-03-03T21:17:24Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。