論文の概要: Rethinking Response Evaluation from Interlocutor's Eye for Open-Domain
Dialogue Systems
- arxiv url: http://arxiv.org/abs/2401.02256v1
- Date: Thu, 4 Jan 2024 13:15:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:09:31.015517
- Title: Rethinking Response Evaluation from Interlocutor's Eye for Open-Domain
Dialogue Systems
- Title(参考訳): 対話システムにおける対話者眼からの反応評価の再考
- Authors: Yuma Tsuta, Naoki Yoshinaga, Shoetsu Sato and Masashi Toyoda
- Abstract要約: 我々は,自動応答評価器に必要とされる機能について,対話者の視点から分析・検討した。
Hazumiデータセットの最初の実験では、自動応答評価をインターロケータの判断と相関させる上で、インターロケータ認識が重要な役割を担っていることが明らかとなった。
X(元Twitter)での大規模な会話を用いた2回目の実験では、対話継続性予測が人間からのフィードバックなしにインターロケータ対応評価器を訓練できることが確認された。
- 参考スコア(独自算出の注目度): 14.98159964397052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain dialogue systems have started to engage in continuous
conversations with humans. Those dialogue systems are required to be adjusted
to the human interlocutor and evaluated in terms of their perspective. However,
it is questionable whether the current automatic evaluation methods can
approximate the interlocutor's judgments. In this study, we analyzed and
examined what features are needed in an automatic response evaluator from the
interlocutor's perspective. The first experiment on the Hazumi dataset revealed
that interlocutor awareness plays a critical role in making automatic response
evaluation correlate with the interlocutor's judgments. The second experiment
using massive conversations on X (formerly Twitter) confirmed that dialogue
continuity prediction can train an interlocutor-aware response evaluator
without human feedback while revealing the difficulty in evaluating generated
responses compared to human responses.
- Abstract(参考訳): オープンドメインの対話システムは、人間との継続的な会話に取り組み始めた。
これらの対話システムは、人間の対話者に対して調整され、その視点で評価される。
しかし、現在の自動評価手法が干渉者の判断を近似できるかどうかは疑問である。
本研究では,自動応答評価装置に必要な機能について,対話者の視点から分析・検討した。
ハズミデータセットの最初の実験では、対話者の認識が、対話者の判断と自動応答評価を関連付ける上で重要な役割を担っていることが明らかとなった。
X(旧Twitter)での大規模な会話を用いた2回目の実験では、対話継続性予測は人間からのフィードバックを伴わずにインターロカクタ認識応答評価器を訓練し、人間の反応と比較して生成された応答を評価するのが困難であることを明らかにした。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue
Systems [26.003947740875482]
ソーシャル対話タスクにおけるユーザ行動と主観的評価スコアの関係について検討する。
その結果, ユーザの発話が主である対話作業においては, 聞き取りや面接など, 発話数や単語数などの指標が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-01-10T01:02:26Z) - WHAT, WHEN, and HOW to Ground: Designing User Persona-Aware
Conversational Agents for Engaging Dialogue [4.328280329592151]
本稿では,WWH問題に対処するオープンドメイン対話システムを構築する方法を提案する。
提案手法は、重み付けされたデータセットブレンディング、ネガティブなペルソナ情報拡張方法、パーソナライズされた会話データセットの設計を含む。
本研究は,対話の流速と接地傾向のバランスを効果的に保ちつつ,接地応答の制御性と説明性を向上させるための応答型ラベルを導入する。
論文 参考訳(メタデータ) (2023-06-06T02:28:38Z) - ACCENT: An Automatic Event Commonsense Evaluation Metric for Open-Domain
Dialogue Systems [81.8658402934838]
我々は,コモンセンス知識ベース(CSKB)によるイベントコモンセンス評価であるACCENTを提案する。
実験の結果,ACCENTは事象のコモンセンス評価に有効な指標であり,既存の基準値よりも人間の判断との相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-05-12T23:11:48Z) - Response-act Guided Reinforced Dialogue Generation for Mental Health
Counseling [25.524804770124145]
本稿では、メンタルヘルスカウンセリング会話のための対話行動誘導応答生成器READERについて述べる。
READERは変換器上に構築されており、次の発話に対する潜在的な対話行為d(t+1)を共同で予測し、適切な応答u(t+1)を生成する。
ベンチマークカウンセリング会話データセットであるHOPE上でREADERを評価する。
論文 参考訳(メタデータ) (2023-01-30T08:53:35Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。