論文の概要: On the Use of Linguistic Features for the Evaluation of Generative
Dialogue Systems
- arxiv url: http://arxiv.org/abs/2104.06335v1
- Date: Tue, 13 Apr 2021 16:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 17:17:31.839135
- Title: On the Use of Linguistic Features for the Evaluation of Generative
Dialogue Systems
- Title(参考訳): 生成対話システム評価における言語的特徴の利用について
- Authors: Ian Berlot-Attwell and Frank Rudzicz
- Abstract要約: 言語的特徴に基づく指標は,人間の判断と良好な相関を維持し,解釈可能であることを示唆する。
この提案を支持するために,複数の対話モデルによって生成された対話のさまざまな言語的特徴を計測し,分析する。
特徴の振る舞いはテストされたモデルの既知の特性と一致し、ドメイン間で類似していることが分かりました。
- 参考スコア(独自算出の注目度): 17.749995931459136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically evaluating text-based, non-task-oriented dialogue systems
(i.e., `chatbots') remains an open problem. Previous approaches have suffered
challenges ranging from poor correlation with human judgment to poor
generalization and have often required a gold standard reference for comparison
or human-annotated data. Extending existing evaluation methods, we propose that
a metric based on linguistic features may be able to maintain good correlation
with human judgment and be interpretable, without requiring a gold-standard
reference or human-annotated data. To support this proposition, we measure and
analyze various linguistic features on dialogues produced by multiple dialogue
models. We find that the features' behaviour is consistent with the known
properties of the models tested, and is similar across domains. We also
demonstrate that this approach exhibits promising properties such as zero-shot
generalization to new domains on the related task of evaluating response
relevance.
- Abstract(参考訳): テキストベースの非タスク指向対話システム(すなわち 'chatbots')を自動評価することは未解決の問題である。
従来のアプローチでは、人間の判断との相関が低かったり、一般化が低かったり、比較や注釈付きデータに金の基準が必要だったりしていた。
既存の評価方法を拡張して, 言語的特徴に基づく指標は, 人間の判断と良好な相関を維持し, 解釈可能であり, ゴールド標準参照や人間の注釈データを必要としないことを示す。
この提案を支持するために,複数の対話モデルによって生成された対話のさまざまな言語的特徴を計測し,分析する。
機能の振る舞いは、テストされたモデルの既知の特性と一致しており、ドメイン間で似ています。
また,本手法は,応答関連性を評価するタスクにおいて,新しい領域へのゼロショット一般化などの有望な特性を示す。
関連論文リスト
- CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5428962271088]
本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。
実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T06:08:16Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Evaluating Groundedness in Dialogue Systems: The BEGIN Benchmark [29.722504033424382]
知識ベースの対話エージェントは、Wikipediaページなどの外部に提供される背景情報に基づいて会話を行うように設計されたシステムです。
BEGIN(Benchmark for Evaluation of Grounded Interaction)について紹介します。
beginは、言語モデルに基づく対話システムによって生成された8113の対話ターンからなり、システムの応答と背景情報の関係を人間の注釈で指定する。
論文 参考訳(メタデータ) (2021-04-30T20:17:52Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。