論文の概要: An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue
Systems
- arxiv url: http://arxiv.org/abs/2401.04867v2
- Date: Tue, 23 Jan 2024 06:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:33:25.282450
- Title: An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue
Systems
- Title(参考訳): 音声対話システムの客観的評価のためのユーザ行動分析
- Authors: Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara, Gabriel Skantze
- Abstract要約: ソーシャル対話タスクにおけるユーザ行動と主観的評価スコアの関係について検討する。
その結果, ユーザの発話が主である対話作業においては, 聞き取りや面接など, 発話数や単語数などの指標が重要な役割を担っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 26.003947740875482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Establishing evaluation schemes for spoken dialogue systems is important, but
it can also be challenging. While subjective evaluations are commonly used in
user experiments, objective evaluations are necessary for research comparison
and reproducibility. To address this issue, we propose a framework for
indirectly but objectively evaluating systems based on users' behaviors. In
this paper, to this end, we investigate the relationship between user behaviors
and subjective evaluation scores in social dialogue tasks: attentive listening,
job interview, and first-meeting conversation. The results reveal that in
dialogue tasks where user utterances are primary, such as attentive listening
and job interview, indicators like the number of utterances and words play a
significant role in evaluation. Observing disfluency also can indicate the
effectiveness of formal tasks, such as job interview. On the other hand, in
dialogue tasks with high interactivity, such as first-meeting conversation,
behaviors related to turn-taking, like average switch pause length, become more
important. These findings suggest that selecting appropriate user behaviors can
provide valuable insights for objective evaluation in each social dialogue
task.
- Abstract(参考訳): 音声対話システムの評価手法の確立は重要であるが,課題もある。
主観評価はユーザ実験で一般的に用いられるが,研究比較や再現性には客観的評価が必要である。
そこで本研究では,ユーザの行動に基づいた間接的かつ客観的なシステム評価フレームワークを提案する。
本稿では,ソーシャル対話課題におけるユーザの行動と主観的評価スコアとの関係について検討する。
その結果,注意的聴取や就職面接など,ユーザ発話が第一の対話タスクでは,発話数や単語数などの指標が評価に重要な役割を果たすことがわかった。
障害の観察は、就職面接などの形式的タスクの有効性を示すこともできる。
一方,初対面会話などの対話性が高い対話タスクでは,平均的なスイッチ停止時間など,ターンテイクに関連する行動が重要となる。
これらの結果から,適切なユーザ行動の選択は,各ソーシャル対話タスクにおける客観的評価に有用であることが示唆された。
関連論文リスト
- Joint Learning of Context and Feedback Embeddings in Spoken Dialogue [3.8673630752805446]
コントラスト学習目標を用いて,同じ表現空間に短い対話コンテキストとフィードバック応答を埋め込む可能性を検討する。
実験結果から,本モデルは人間に同じランキングタスクを施し,学習された埋め込みはフィードバック応答の会話機能に関する情報を伝達することがわかった。
論文 参考訳(メタデータ) (2024-06-11T14:22:37Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - Rethinking Response Evaluation from Interlocutor's Eye for Open-Domain
Dialogue Systems [14.98159964397052]
我々は,自動応答評価器に必要とされる機能について,対話者の視点から分析・検討した。
Hazumiデータセットの最初の実験では、自動応答評価をインターロケータの判断と相関させる上で、インターロケータ認識が重要な役割を担っていることが明らかとなった。
X(元Twitter)での大規模な会話を用いた2回目の実験では、対話継続性予測が人間からのフィードバックなしにインターロケータ対応評価器を訓練できることが確認された。
論文 参考訳(メタデータ) (2024-01-04T13:15:41Z) - Toward More Accurate and Generalizable Evaluation Metrics for
Task-Oriented Dialogs [19.43845920149182]
ダイアログ品質と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。
DQAの専門家アノテータは、ダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。
我々は,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質なヒューマンアノテートデータを持つことが重要であると論じている。
論文 参考訳(メタデータ) (2023-06-06T19:43:29Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - Interacting with Non-Cooperative User: A New Paradigm for Proactive
Dialogue Policy [83.61404191470126]
インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。
具体的には,4つの要因からなる学習目標重みを通じてトレードオフを学習する。
実験の結果,I-Proは,有効性と解釈性において,ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-04-07T14:11:31Z) - User Satisfaction Estimation with Sequential Dialogue Act Modeling in
Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。
USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。
4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-07T02:50:07Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。