論文の概要: Towards Multi-Platform Mutation Testing of Task-based Chatbots
- arxiv url: http://arxiv.org/abs/2509.01389v1
- Date: Mon, 01 Sep 2025 11:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.665045
- Title: Towards Multi-Platform Mutation Testing of Task-based Chatbots
- Title(参考訳): タスクベースチャットボットのマルチプラットフォーム変異テストに向けて
- Authors: Diego Clerissi, Elena Masserini, Daniela Micucci, Leonardo Mariani,
- Abstract要約: 我々はMUTABOTを複数のプラットフォーム(DialogflowとRasa)に拡張する。
MUTABOTは、会話中の欠陥を注入するための突然変異試験手法である。
我々は、Botiumの最先端テストジェネレータによって生成されるテストスイートの弱点を明らかにするために、突然変異テストをどのように利用できるかを示す。
- 参考スコア(独自算出の注目度): 5.64612424709862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chatbots, also known as conversational agents, have become ubiquitous, offering services for a multitude of domains. Unlike general-purpose chatbots, task-based chatbots are software designed to prioritize the completion of tasks of the domain they handle (e.g., flight booking). Given the growing popularity of chatbots, testing techniques that can generate full conversations as test cases have emerged. Still, thoroughly testing all the possible conversational scenarios implemented by a task-based chatbot is challenging, resulting in incorrect behaviors that may remain unnoticed. To address this challenge, we proposed MUTABOT, a mutation testing approach for injecting faults in conversations and producing faulty chatbots that emulate defects that may affect the conversational aspects. In this paper, we present our extension of MUTABOT to multiple platforms (Dialogflow and Rasa), and present experiments that show how mutation testing can be used to reveal weaknesses in test suites generated by the Botium state-of-the-art test generator.
- Abstract(参考訳): チャットボットは会話エージェントとしても知られており、様々なドメイン向けのサービスを提供している。
汎用チャットボットとは異なり、タスクベースのチャットボットは、処理するドメイン(フライト予約など)のタスクの完了を優先するように設計されたソフトウェアである。
チャットボットの人気が高まっている中、テストケースが出現すると、完全な会話を生成できるテストテクニックが登場した。
それでも、タスクベースのチャットボットによって実装される可能性のある会話シナリオをすべて徹底的にテストすることは難しい。
この課題に対処するため,我々はMUTABOTを提案する。MUTABOTは,会話に欠陥を注入し,会話に影響を及ぼす可能性のある欠陥をエミュレートする欠陥のあるチャットボットを生成する突然変異試験手法である。
本稿では,MUTABOTの複数のプラットフォーム(DialogflowとRasa)への拡張について述べるとともに,Botiumの最先端テストジェネレータが生成するテストスイートの弱点を明らかにするために,変異テストをどのように利用できるかを示す実験を行った。
関連論文リスト
- SafeChat: A Framework for Building Trustworthy Collaborative Assistants and a Case Study of its Usefulness [4.896226014796392]
SafeChatは、安全で信頼性の高いチャットボットを構築するための一般的なアーキテクチャです。
SafeChatの主な特徴は、 (a) 応答が承認されたソース(保証)に対して基礎付けられてトレース可能なドメインに依存しない設計による安全性、 (b) ユーザビリティ、長いレスポンスの自動抽出によるソースへのトレーサビリティ、 (c) CSV駆動ワークフロー、自動テスト、各種デバイスとの統合を含む、高速でスケーラブルな開発である。
論文 参考訳(メタデータ) (2025-04-08T19:16:43Z) - Test Case Generation for Dialogflow Task-Based Chatbots [3.488620810035772]
Test Generator (CTG) はタスクベースのチャットボット向けに設計された自動テスト技術である。
我々はCTGと最先端のBOTiumおよびCHARMツールの比較実験を行った。
CTGは、堅牢性と有効性という点でライバルより優れていた。
論文 参考訳(メタデータ) (2025-03-07T16:39:27Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - MutaBot: A Mutation Testing Approach for Chatbots [3.811067614153878]
MutaBotは、会話フロー、インテント、コンテキストを含む、複数のレベルでの突然変異に対処する。
ツールを3つのDialogflowチャットボットとBotiumで生成されたテストケースで評価し、テストスイートの弱点を明らかにする。
論文 参考訳(メタデータ) (2024-01-18T20:38:27Z) - Evaluating Chatbots to Promote Users' Trust -- Practices and Open
Problems [11.427175278545517]
本稿では,チャットボットのテスト実践について概説する。
ギャップをユーザ信頼の追求におけるオープンな問題として認識する。
サービスや製品のパフォーマンス、ユーザの満足度、社会に対する長期的意図しない結果に関する信頼の問題を緩和するための道筋を概説する。
論文 参考訳(メタデータ) (2023-09-09T22:40:30Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。