論文の概要: Improving Open-Domain Dialogue Evaluation with a Causal Inference Model
- arxiv url: http://arxiv.org/abs/2301.13372v1
- Date: Tue, 31 Jan 2023 02:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:51:25.917860
- Title: Improving Open-Domain Dialogue Evaluation with a Causal Inference Model
- Title(参考訳): 因果推論モデルによるオープンドメイン対話評価の改善
- Authors: Cat P. Le, Luke Dai, Michael Johnston, Yang Liu, Marilyn Walker, Reza
Ghanadan
- Abstract要約: 明示的な満足度評価はユーザーから引き出すことができるが、ユーザーは質問された時に評価を提供しないことが多い。
専門家によるポストホック評価は代替案だが、これらは高価で複雑だ。
本稿では,オープンドメイン対話のエキスパート評価とユーザ評価の両方を予測する自動手法の開発について検討する。
- 参考スコア(独自算出の注目度): 8.625569782672663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective evaluation methods remain a significant challenge for research on
open-domain conversational dialogue systems. Explicit satisfaction ratings can
be elicited from users, but users often do not provide ratings when asked, and
those they give can be highly subjective. Post-hoc ratings by experts are an
alternative, but these can be both expensive and complex to collect. Here, we
explore the creation of automated methods for predicting both expert and user
ratings of open-domain dialogues. We compare four different approaches. First,
we train a baseline model using an end-to-end transformer to predict ratings
directly from the raw dialogue text. The other three methods are variants of a
two-stage approach in which we first extract interpretable features at the turn
level that capture, among other aspects, user dialogue behaviors indicating
contradiction, repetition, disinterest, compliments, or criticism. We project
these features to the dialogue level and train a dialogue-level MLP regression
model, a dialogue-level LSTM, and a novel causal inference model called
counterfactual-LSTM (CF-LSTM) to predict ratings. The proposed CF-LSTM is a
sequential model over turn-level features which predicts ratings using multiple
regressors depending on hypotheses derived from the turn-level features. As a
causal inference model, CF-LSTM aims to learn the underlying causes of a
specific event, such as a low rating. We also bin the user ratings and perform
classification experiments with all four models. In evaluation experiments on
conversational data from the Alexa Prize SocialBot, we show that the CF-LSTM
achieves the best performance for predicting dialogue ratings and
classification.
- Abstract(参考訳): オープンドメイン対話システムの研究において,効果的な評価手法は依然として重要な課題である。
明示的な満足度評価はユーザによって引き起こされるが、ユーザは質問時に評価を提供しておらず、与えられた評価は極めて主観的である。
専門家によるポストホック評価は代替案だが、これらは高価で複雑だ。
本稿では,オープンドメイン対話のエキスパート評価とユーザ評価の両方を予測する自動手法の作成について検討する。
4つの異なるアプローチを比較します。
まず、エンド・ツー・エンド・トランスフォーマーを用いてベースラインモデルをトレーニングし、生の対話テキストから直接評価を予測する。
他の3つの方法は、2段階のアプローチの変種であり、まずターンレベルで解釈可能な特徴を抽出し、その特徴の中から矛盾、反復、不利、賛辞、批判を示すユーザー対話の振る舞いを捉えている。
我々はこれらの特徴を対話レベルに投影し、対話レベルMLP回帰モデル、対話レベルLSTM、および対実的LSTM(CF-LSTM)と呼ばれる新しい因果推論モデルを用いて評価を予測する。
提案するCF-LSTMは、ターンレベルの特徴から導かれる仮説に依存する複数の回帰器を用いて評価を予測する、ターンレベルの特徴に対するシーケンシャルモデルである。
因果推論モデルとして、cf-lstmは低レーティングなど特定のイベントの根本原因を学ぶことを目的としている。
また、ユーザ評価を組み込んで、4つのモデルすべてで分類実験を行います。
Alexa Prize SocialBotによる会話データの評価実験において、CF-LSTMは対話のレーティングと分類の予測に最適であることを示す。
関連論文リスト
- Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z) - Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文 参考訳(メタデータ) (2020-05-21T15:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。