論文の概要: Addressing Inquiries about History: An Efficient and Practical Framework
for Evaluating Open-domain Chatbot Consistency
- arxiv url: http://arxiv.org/abs/2106.02228v1
- Date: Fri, 4 Jun 2021 03:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:23:13.712414
- Title: Addressing Inquiries about History: An Efficient and Practical Framework
for Evaluating Open-domain Chatbot Consistency
- Title(参考訳): 歴史に関する問いに答える:オープンドメインチャットボットの一貫性を評価するための効率的かつ実用的なフレームワーク
- Authors: Zekang Li, Jinchao Zhang, Zhengcong Fei, Yang Feng, Jie Zhou
- Abstract要約: 整合性評価のためのAIH(Addressing Inquiries about History)フレームワークを提案する。
会話の段階では、AIHは対話履歴に関する適切な質問に対処し、チャットボットに歴史的な事実や意見を再宣言する。
矛盾認識段階では、人間の判断または自然言語推論(NLI)モデルを用いて、質問に対する回答が歴史と矛盾しているかどうかを認識することができる。
- 参考スコア(独自算出の注目度): 28.255324166852535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A good open-domain chatbot should avoid presenting contradictory responses
about facts or opinions in a conversational session, known as its consistency
capacity. However, evaluating the consistency capacity of a chatbot is still
challenging. Employing human judges to interact with chatbots on purpose to
check their capacities is costly and low-efficient, and difficult to get rid of
subjective bias. In this paper, we propose the Addressing Inquiries about
History (AIH), an efficient and practical framework for the consistency
evaluation. At the conversation stage, AIH attempts to address appropriate
inquiries about the dialogue history to induce the chatbot to redeclare the
historical facts or opinions. We carry out the conversation between chatbots,
which is more efficient than the human-bot interaction and can also alleviate
the subjective bias. In this way, we manage to rapidly obtain a dialog session
that contains responses with high contradiction possibilities. At the
contradiction recognition stage, we can either employ human judges or a natural
language inference (NLI) model to recognize whether the answers to the
inquiries are contradictory with history. Finally, we are able to rank chatbots
according to the contradiction statistics. Experiments on open-domain chatbots
show that our approach can efficiently and reliably assess the consistency
capacity of chatbots and achieve a high ranking correlation with the human
evaluation. We release the framework and hope to help improve the consistency
capacity of chatbots. \footnote{\url{https://github.com/ictnlp/AIH}}
- Abstract(参考訳): 優れたオープンドメインチャットボットは、その一貫性能力として知られる会話セッションにおいて、事実や意見に関する矛盾した応答を提示しないようにすべきである。
しかし、チャットボットの一貫性を評価することは依然として難しい。
人間の判断でチャットボットと対話して能力をチェックすることは、コストがかかり、効率が悪く、主観的偏見を取り除くのが難しい。
本稿では,一貫性評価のための効率的かつ実践的なフレームワークである歴史に関するアドレス問合せ(AIH)を提案する。
会話の段階では、AIHは対話履歴に関する適切な質問に対処し、チャットボットに歴史的事実や意見を再宣言する。
チャットボット間の会話は、人間とボットの相互作用よりも効率的であり、主観的バイアスを軽減することができる。
このようにして、高い矛盾の可能性を持つ応答を含むダイアログセッションを迅速に得ることができる。
矛盾認識段階では、人間の判断または自然言語推論(NLI)モデルを用いて、質問に対する回答が歴史と矛盾しているかどうかを認識することができる。
最後に、矛盾統計に基づいてチャットボットをランク付けできる。
オープンドメインチャットボットを用いた実験により,チャットボットの一貫性を効果的かつ確実に評価し,人間評価と高いランキング相関が得られることを示した。
フレームワークをリリースし、チャットボットの一貫性の向上を期待しています。
\footnote{\url{https://github.com/ictnlp/AIH}}
関連論文リスト
- Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - CDConv: A Benchmark for Contradiction Detection in Chinese Conversations [74.78715797366395]
本稿では,中国会話におけるコントラクション検出のベンチマーク,すなわちCDConvを提案する。
12Kのマルチターン会話に3つの典型的な矛盾カテゴリ(文内コントラクション、ロールコンフュージョン、ヒストリーコントラクション)をアノテートする。
論文 参考訳(メタデータ) (2022-10-16T11:37:09Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - A Deep Learning Approach to Integrate Human-Level Understanding in a
Chatbot [0.4632366780742501]
人間とは異なり、チャットボットは一度に複数の顧客にサービスを提供し、24/7で提供され、1秒以内で返信できる。
深層学習を用いて感情分析,感情検出,意図分類,名義認識を行い,人文的理解と知性を備えたチャットボットを開発した。
論文 参考訳(メタデータ) (2021-12-31T22:26:41Z) - Evaluator for Emotionally Consistent Chatbots [2.8348950186890467]
最新の研究は、文脈コヒーレンス、言語流布、応答の多様性、対話間の論理的自己整合性についてのみ評価されている。
本研究は,チャットボットの感情的一貫性を決定するための評価器のトレーニングを提案する。
論文 参考訳(メタデータ) (2021-12-02T21:47:29Z) - CheerBots: Chatbots toward Empathy and Emotionusing Reinforcement
Learning [60.348822346249854]
本研究では,複数の共感型チャットボットがユーザの暗黙の感情を理解し,複数の対話のターンに対して共感的に応答する枠組みを提案する。
チャットボットをCheerBotsと呼びます。CheerBotsは検索ベースまたは生成ベースで、深い強化学習によって微調整されます。
共感的態度で反応するため,CheerBotsの学習支援としてシミュレーションエージェントである概念人間モデルを開発し,今後のユーザの感情状態の変化を考慮し,共感を喚起する。
論文 参考訳(メタデータ) (2021-10-08T07:44:47Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Spot The Bot: A Robust and Efficient Framework for the Evaluation of
Conversational Dialogue Systems [21.36935947626793]
emphSpot ボットは人間とボットの会話をボット間の会話に置き換える。
人間の判断は、それが人間であるかどうかに関わらず、会話において各実体に注釈を付けるだけである。
emphSurvival Analysisは、人間のような行動を最も長く維持できるボットを計測する。
論文 参考訳(メタデータ) (2020-10-05T16:37:52Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - If I Hear You Correctly: Building and Evaluating Interview Chatbots with
Active Listening Skills [4.395837214164745]
オープンエンドの質問に対して、ユーザの自由テキスト応答を処理できる効果的なインタビューチャットボットを構築するのは難しい。
我々は,公開可能な実用的なAI技術を用いて,効果的なインタビューチャットボットの構築の実現可能性と有効性について検討している。
論文 参考訳(メタデータ) (2020-02-05T16:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。