論文の概要: Spot The Bot: A Robust and Efficient Framework for the Evaluation of
Conversational Dialogue Systems
- arxiv url: http://arxiv.org/abs/2010.02140v1
- Date: Mon, 5 Oct 2020 16:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:12:42.570763
- Title: Spot The Bot: A Robust and Efficient Framework for the Evaluation of
Conversational Dialogue Systems
- Title(参考訳): Spot the Bot:対話システム評価のためのロバストで効率的なフレームワーク
- Authors: Jan Deriu and Don Tuggener and Pius von D\"aniken and Jon Ander Campos
and Alvaro Rodrigo and Thiziri Belkacem and Aitor Soroa and Eneko Agirre and
Mark Cieliebak
- Abstract要約: emphSpot ボットは人間とボットの会話をボット間の会話に置き換える。
人間の判断は、それが人間であるかどうかに関わらず、会話において各実体に注釈を付けるだけである。
emphSurvival Analysisは、人間のような行動を最も長く維持できるボットを計測する。
- 参考スコア(独自算出の注目度): 21.36935947626793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of time-efficient and reliable evaluation methods hamper the
development of conversational dialogue systems (chatbots). Evaluations
requiring humans to converse with chatbots are time and cost-intensive, put
high cognitive demands on the human judges, and yield low-quality results. In
this work, we introduce \emph{Spot The Bot}, a cost-efficient and robust
evaluation framework that replaces human-bot conversations with conversations
between bots. Human judges then only annotate for each entity in a conversation
whether they think it is human or not (assuming there are humans participants
in these conversations). These annotations then allow us to rank chatbots
regarding their ability to mimic the conversational behavior of humans. Since
we expect that all bots are eventually recognized as such, we incorporate a
metric that measures which chatbot can uphold human-like behavior the longest,
i.e., \emph{Survival Analysis}. This metric has the ability to correlate a
bot's performance to certain of its characteristics (e.g., \ fluency or
sensibleness), yielding interpretable results. The comparably low cost of our
framework allows for frequent evaluations of chatbots during their evaluation
cycle. We empirically validate our claims by applying \emph{Spot The Bot} to
three domains, evaluating several state-of-the-art chatbots, and drawing
comparisons to related work. The framework is released as a ready-to-use tool.
- Abstract(参考訳): 時間効率で信頼性の高い評価手法の欠如は対話型対話システム(チャットボット)の開発を妨げる。
人間がチャットボットと会話することを要求する評価は、時間とコストがかかり、人間の判断に高い認知的要求を課し、品質の低い結果をもたらす。
本稿では,人間とボットの会話をボット間の会話に置き換える,コスト効率が高くロバストな評価フレームワークである \emph{spot the bot} を紹介する。
人間の判断は、人間であるかどうかに関わらず(これらの会話に人間が参加していると仮定すると)会話において各エンティティに注釈を付ける。
これらのアノテーションは、人間の会話行動の模倣に関するチャットボットのランク付けを可能にします。
すべてのボットが最終的にそのようなものとして認識されることを期待するので、チャットボットが人間のような行動を最も長く維持できる、すなわち \emph{Survival Analysis} の測定基準を組み込む。
このメトリクスは、ボットのパフォーマンスをその特性の特定の特性(例えば、 \ Fluency や Sensibleness)と相関させ、解釈可能な結果をもたらす能力を持つ。
比較可能な低コストなフレームワークは、評価サイクル中にチャットボットを頻繁に評価できる。
3つのドメインに \emph{Spot The Bot} を適用し、いくつかの最先端のチャットボットを評価し、関連する作業と比較することによって、我々の主張を実証的に検証する。
フレームワークは使えるツールとしてリリースされている。
関連論文リスト
- LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - Neural Generation Meets Real People: Building a Social, Informative
Open-Domain Dialogue Agent [65.68144111226626]
Chirpy Cardinalは、情報と会話の両方をねらっている。
ユーザーとボットの両方を交互に会話に駆り立てる。
Chirpy Cardinalは、Alexa Prize Socialbot Grand Challengeで9つのボットのうち2位にランクインした。
論文 参考訳(メタデータ) (2022-07-25T09:57:23Z) - A Deep Learning Approach to Integrate Human-Level Understanding in a
Chatbot [0.4632366780742501]
人間とは異なり、チャットボットは一度に複数の顧客にサービスを提供し、24/7で提供され、1秒以内で返信できる。
深層学習を用いて感情分析,感情検出,意図分類,名義認識を行い,人文的理解と知性を備えたチャットボットを開発した。
論文 参考訳(メタデータ) (2021-12-31T22:26:41Z) - EmpBot: A T5-based Empathetic Chatbot focusing on Sentiments [75.11753644302385]
共感的会話エージェントは、議論されていることを理解しているだけでなく、会話相手の暗黙の感情も認識すべきである。
変圧器事前学習言語モデル(T5)に基づく手法を提案する。
本研究では,自動計測と人的評価の両方を用いて,情緒的ダイアログデータセットを用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-30T19:04:48Z) - CheerBots: Chatbots toward Empathy and Emotionusing Reinforcement
Learning [60.348822346249854]
本研究では,複数の共感型チャットボットがユーザの暗黙の感情を理解し,複数の対話のターンに対して共感的に応答する枠組みを提案する。
チャットボットをCheerBotsと呼びます。CheerBotsは検索ベースまたは生成ベースで、深い強化学習によって微調整されます。
共感的態度で反応するため,CheerBotsの学習支援としてシミュレーションエージェントである概念人間モデルを開発し,今後のユーザの感情状態の変化を考慮し,共感を喚起する。
論文 参考訳(メタデータ) (2021-10-08T07:44:47Z) - Addressing Inquiries about History: An Efficient and Practical Framework
for Evaluating Open-domain Chatbot Consistency [28.255324166852535]
整合性評価のためのAIH(Addressing Inquiries about History)フレームワークを提案する。
会話の段階では、AIHは対話履歴に関する適切な質問に対処し、チャットボットに歴史的な事実や意見を再宣言する。
矛盾認識段階では、人間の判断または自然言語推論(NLI)モデルを用いて、質問に対する回答が歴史と矛盾しているかどうかを認識することができる。
論文 参考訳(メタデータ) (2021-06-04T03:04:13Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - FinChat: Corpus and evaluation setup for Finnish chat conversations on
everyday topics [15.94497202872835]
フィンランドのチャットコーパス「FinChat」を公開している。
FinChatには、異なる年齢の人々の7つのトピックに関する説明されていない会話が含まれている。
人間の評価では、チャットボットが生成した評価セットからの質問に対する応答は、主に非一貫性としてマークされる。
論文 参考訳(メタデータ) (2020-08-19T07:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。