論文の概要: Is Our Chatbot Telling Lies? Assessing Correctness of an LLM-based Dutch Support Chatbot
- arxiv url: http://arxiv.org/abs/2411.00034v1
- Date: Tue, 29 Oct 2024 12:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:35.455238
- Title: Is Our Chatbot Telling Lies? Assessing Correctness of an LLM-based Dutch Support Chatbot
- Title(参考訳): 私たちのチャットボットは嘘を言うのか?-LLMに基づくオランダ支援チャットボットの正確性の評価
- Authors: Herman Lassche, Michiel Overeem, Ayushi Rastogi,
- Abstract要約: この研究は、AFASのサポートチームがどのように意思決定するかに基づいて、レスポンスの正しさを定義する最初のものです。
自動的なアプローチが支持率にどの程度近づいたかを調べるためには、バイナリレスポンス(例えば、手動で税率を調整することは可能か?)や指示(例えば、手動で税率を調整するか?)を問う質問を調査した。
われわれのアプローチでは、55%のケースで間違ったメッセージを識別できる。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License:
- Abstract: Companies support their customers using live chats and chatbots to gain their loyalty. AFAS is a Dutch company aiming to leverage the opportunity large language models (LLMs) offer to answer customer queries with minimal to no input from its customer support team. Adding to its complexity, it is unclear what makes a response correct, and that too in Dutch. Further, with minimal data available for training, the challenge is to identify whether an answer generated by a large language model is correct and do it on the fly. This study is the first to define the correctness of a response based on how the support team at AFAS makes decisions. It leverages literature on natural language generation and automated answer grading systems to automate the decision-making of the customer support team. We investigated questions requiring a binary response (e.g., Would it be possible to adjust tax rates manually?) or instructions (e.g., How would I adjust tax rate manually?) to test how close our automated approach reaches support rating. Our approach can identify wrong messages in 55\% of the cases. This work shows the viability of automatically assessing when our chatbot tell lies.
- Abstract(参考訳): 企業は、彼らの忠誠心を得るために、ライブチャットとチャットボットを使用して顧客をサポートする。
AFASはオランダの企業で、大規模な言語モデル(LLM)が提供する機会を活用して、顧客サポートチームからのインプットを最小限から不要にすることを目指している。
複雑さに加えて、どのような反応が正しいのか、オランダ語でも同様である。
さらに、トレーニング用に利用可能な最小限のデータでは、大きな言語モデルによって生成された回答が正しいかどうかを特定し、それをオンザフライで行うことが課題である。
この研究は、AFASのサポートチームがどのように意思決定するかに基づいて、レスポンスの正しさを定義する最初のものです。
自然言語生成と自動回答グレーティングシステムに関する文献を活用して、カスタマーサポートチームの意思決定を自動化する。
自動的なアプローチがサポート評価にどの程度近づいたかを調べるために、バイナリレスポンス(例えば、手動で税率を調整することは可能か?)や指示(例えば、手動で税率を調整するか?)を調査した。
私たちのアプローチでは、55 %のケースで間違ったメッセージを識別できます。
この研究は、チャットボットが嘘を言ったときに自動的に評価する可能性を示しています。
関連論文リスト
- Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context [4.39796591456426]
OMoS-QAは、信頼できる文書と手動の注釈付き回答とを組み合わせた、ドイツ語と英語の質問のデータセットである。
質問はオープンソースの大言語モデル(LLM)で自動的に生成され、回答文は群衆労働者によって選択される。
回答文の選択には高精度で低中間のリコールがあり、これは誤解を招くユーザーを避けるための好都合なトレードオフである。
論文 参考訳(メタデータ) (2024-07-22T15:40:17Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Connecting Humanities and Social Sciences: Applying Language and Speech
Technology to Online Panel Surveys [2.0646127669654835]
オランダのパネル調査において,言語と音声技術のオープンエンド質問への適用について検討した。
実験波では、回答者は音声やキーボードを使ってオープンな質問に答えることができた。
本稿では,ASRシステムが生成した誤りを報告し,これらの誤りが下流解析に与える影響について検討する。
論文 参考訳(メタデータ) (2023-02-21T10:52:15Z) - Jewelry Shop Conversational Chatbot [0.0]
そこで我々は,顧客からの問い合わせに対して,入力とコーパスのパターンとの類似性を見出すことにより,客の問い合わせの基盤となる目的を見出すジュエリーショップのための対話エージェントを構築した。
我々のシステムはクライアント向けの音声入力インタフェースを備えており、自然言語で話すことができる。
システムの性能を評価するために、リコール、精度、F1スコアなどのパフォーマンス指標を使用しました。
論文 参考訳(メタデータ) (2022-06-09T17:56:51Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Unsupervised Contextual Paraphrase Generation using Lexical Control and
Reinforcement Learning [3.2811284938530636]
自己回帰モデルを用いた文脈パラフレーズ生成のための教師なしフレームワークを提案する。
また, 意味的類似性, テクスト的含意, 表現の多様性, フラレンシに基づく自動測定法を提案し, 文脈的パラフレーズの質を評価する。
論文 参考訳(メタデータ) (2021-03-23T18:22:03Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - "I'd rather just go to bed": Understanding Indirect Answers [61.234722570671686]
我々は,質問に対する間接的応答の理解という,現実的な推論問題をダイアログで再検討する。
最初の大規模英語コーパス「Circa」を34,268対(極性質問,間接回答)で作成・リリースする。
本稿では,質問応答対のカテゴリを予測するためにBERTに基づくニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-10-07T14:41:40Z) - A Financial Service Chatbot based on Deep Bidirectional Transformers [17.779997116217363]
私たちは、金融投資顧客サービスにおけるクライアントの質問を処理するために、Deep Bidirectional Transformer Model (BERT)を使用します。
ボットは381の意図を認識し、いつ「私は知らない」と言うかを決め、人間オペレーターに無関係で不確実な質問をエスカレートする。
もうひとつの新しい貢献は、自動スペル訂正における言語モデルとしてのBERTの使用である。
論文 参考訳(メタデータ) (2020-02-17T18:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。