論文の概要: Substance over Style: Evaluating Proactive Conversational Coaching Agents
- arxiv url: http://arxiv.org/abs/2503.19328v1
- Date: Tue, 25 Mar 2025 03:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:19.079602
- Title: Substance over Style: Evaluating Proactive Conversational Coaching Agents
- Title(参考訳): スタイル上の物質:プロアクティブな会話型コーチングエージェントの評価
- Authors: Vidya Srinivas, Xuhai Xu, Xin Liu, Kumar Ayush, Isaac Galatzer-Levy, Shwetak Patel, Daniel McDuff, Tim Althoff,
- Abstract要約: 異なる会話スタイルを示す5つのマルチターンコーチングエージェントを記述・実装する。
ユーザーはコア機能を高く評価し、コアコンポーネントがないスタイリスティックなコンポーネントは否定的に見なされる。
- 参考スコア(独自算出の注目度): 30.981220308858983
- License:
- Abstract: While NLP research has made strides in conversational tasks, many approaches focus on single-turn responses with well-defined objectives or evaluation criteria. In contrast, coaching presents unique challenges with initially undefined goals that evolve through multi-turn interactions, subjective evaluation criteria, mixed-initiative dialogue. In this work, we describe and implement five multi-turn coaching agents that exhibit distinct conversational styles, and evaluate them through a user study, collecting first-person feedback on 155 conversations. We find that users highly value core functionality, and that stylistic components in absence of core components are viewed negatively. By comparing user feedback with third-person evaluations from health experts and an LM, we reveal significant misalignment across evaluation approaches. Our findings provide insights into design and evaluation of conversational coaching agents and contribute toward improving human-centered NLP applications.
- Abstract(参考訳): NLP研究は会話タスクに力を入れてきたが、多くのアプローチは、明確に定義された目的や評価基準を持ったシングルターン応答に焦点を当てている。
対照的に、コーチングは最初は未定義の目標を持ち、マルチターンインタラクション、主観的評価基準、混合開始対話を通じて進化する。
本研究では,異なる会話スタイルを示す5つのマルチターンコーチングエージェントを記述,実装し,ユーザスタディを通じて評価し,155の会話に対する1対1のフィードバックを収集する。
ユーザーはコア機能を高く評価し、コアコンポーネントがないスタイリスティックなコンポーネントは否定的に見なされる。
健康の専門家とLMの第三者による評価とユーザフィードバックを比較することで,評価アプローチの相違点が明らかとなった。
本研究は,対話型コーチングエージェントの設計と評価に関する知見を提供し,人間中心のNLPアプリケーションの改善に寄与する。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue
Systems [26.003947740875482]
ソーシャル対話タスクにおけるユーザ行動と主観的評価スコアの関係について検討する。
その結果, ユーザの発話が主である対話作業においては, 聞き取りや面接など, 発話数や単語数などの指標が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-01-10T01:02:26Z) - Rethinking Response Evaluation from Interlocutor's Eye for Open-Domain
Dialogue Systems [14.98159964397052]
我々は,自動応答評価器に必要とされる機能について,対話者の視点から分析・検討した。
Hazumiデータセットの最初の実験では、自動応答評価をインターロケータの判断と相関させる上で、インターロケータ認識が重要な役割を担っていることが明らかとなった。
X(元Twitter)での大規模な会話を用いた2回目の実験では、対話継続性予測が人間からのフィードバックなしにインターロケータ対応評価器を訓練できることが確認された。
論文 参考訳(メタデータ) (2024-01-04T13:15:41Z) - Exploring the Impact of Human Evaluator Group on Chat-Oriented Dialogue
Evaluation [13.651502777079237]
本稿では、4つの異なる評価器群を用いた4つの最先端対話システムをテストすることによって、評価器群が対話システム評価に与える影響を解析する。
分析の結果,Pairwiseでは見られなかったLikert評価群に対する評価群に対するロバスト性が明らかとなった。
論文 参考訳(メタデータ) (2023-09-14T19:19:50Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。