論文の概要: Towards Multi-Platform Mutation Testing of Task-based Chatbots
- arxiv url: http://arxiv.org/abs/2509.01389v1
- Date: Mon, 01 Sep 2025 11:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.665045
- Title: Towards Multi-Platform Mutation Testing of Task-based Chatbots
- Title(参考訳): タスクベースチャットボットのマルチプラットフォーム変異テストに向けて
- Authors: Diego Clerissi, Elena Masserini, Daniela Micucci, Leonardo Mariani,
- Abstract要約: 我々はMUTABOTを複数のプラットフォーム(DialogflowとRasa)に拡張する。
MUTABOTは、会話中の欠陥を注入するための突然変異試験手法である。
我々は、Botiumの最先端テストジェネレータによって生成されるテストスイートの弱点を明らかにするために、突然変異テストをどのように利用できるかを示す。
- 参考スコア(独自算出の注目度): 5.64612424709862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chatbots, also known as conversational agents, have become ubiquitous, offering services for a multitude of domains. Unlike general-purpose chatbots, task-based chatbots are software designed to prioritize the completion of tasks of the domain they handle (e.g., flight booking). Given the growing popularity of chatbots, testing techniques that can generate full conversations as test cases have emerged. Still, thoroughly testing all the possible conversational scenarios implemented by a task-based chatbot is challenging, resulting in incorrect behaviors that may remain unnoticed. To address this challenge, we proposed MUTABOT, a mutation testing approach for injecting faults in conversations and producing faulty chatbots that emulate defects that may affect the conversational aspects. In this paper, we present our extension of MUTABOT to multiple platforms (Dialogflow and Rasa), and present experiments that show how mutation testing can be used to reveal weaknesses in test suites generated by the Botium state-of-the-art test generator.
- Abstract(参考訳): チャットボットは会話エージェントとしても知られており、様々なドメイン向けのサービスを提供している。
汎用チャットボットとは異なり、タスクベースのチャットボットは、処理するドメイン(フライト予約など)のタスクの完了を優先するように設計されたソフトウェアである。
チャットボットの人気が高まっている中、テストケースが出現すると、完全な会話を生成できるテストテクニックが登場した。
それでも、タスクベースのチャットボットによって実装される可能性のある会話シナリオをすべて徹底的にテストすることは難しい。
この課題に対処するため,我々はMUTABOTを提案する。MUTABOTは,会話に欠陥を注入し,会話に影響を及ぼす可能性のある欠陥をエミュレートする欠陥のあるチャットボットを生成する突然変異試験手法である。
本稿では,MUTABOTの複数のプラットフォーム(DialogflowとRasa)への拡張について述べるとともに,Botiumの最先端テストジェネレータが生成するテストスイートの弱点を明らかにするために,変異テストをどのように利用できるかを示す実験を行った。
関連論文リスト
- Automated Testing of Task-based Chatbots: How Far Are We? [5.64612424709862]
タスクベースのチャットボット(英: Task-based chatbots)は、ユーザーが会話インターフェイスを通じてタスクを完了するのを助けるソフトウェアである。
本稿では,GitHubからタスクベースのチャットボットをキュレートした選択に対する最先端テスト手法の有効性を評価する。
論文 参考訳(メタデータ) (2026-02-13T16:32:50Z) - SafeChat: A Framework for Building Trustworthy Collaborative Assistants and a Case Study of its Usefulness [4.896226014796392]
SafeChatは、安全で信頼性の高いチャットボットを構築するための一般的なアーキテクチャです。
SafeChatの主な特徴は、 (a) 応答が承認されたソース(保証)に対して基礎付けられてトレース可能なドメインに依存しない設計による安全性、 (b) ユーザビリティ、長いレスポンスの自動抽出によるソースへのトレーサビリティ、 (c) CSV駆動ワークフロー、自動テスト、各種デバイスとの統合を含む、高速でスケーラブルな開発である。
論文 参考訳(メタデータ) (2025-04-08T19:16:43Z) - Test Case Generation for Dialogflow Task-Based Chatbots [3.488620810035772]
Test Generator (CTG) はタスクベースのチャットボット向けに設計された自動テスト技術である。
我々はCTGと最先端のBOTiumおよびCHARMツールの比較実験を行った。
CTGは、堅牢性と有効性という点でライバルより優れていた。
論文 参考訳(メタデータ) (2025-03-07T16:39:27Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - MutaBot: A Mutation Testing Approach for Chatbots [3.811067614153878]
MutaBotは、会話フロー、インテント、コンテキストを含む、複数のレベルでの突然変異に対処する。
ツールを3つのDialogflowチャットボットとBotiumで生成されたテストケースで評価し、テストスイートの弱点を明らかにする。
論文 参考訳(メタデータ) (2024-01-18T20:38:27Z) - Evaluating Chatbots to Promote Users' Trust -- Practices and Open
Problems [11.427175278545517]
本稿では,チャットボットのテスト実践について概説する。
ギャップをユーザ信頼の追求におけるオープンな問題として認識する。
サービスや製品のパフォーマンス、ユーザの満足度、社会に対する長期的意図しない結果に関する信頼の問題を緩和するための道筋を概説する。
論文 参考訳(メタデータ) (2023-09-09T22:40:30Z) - Chatbots put to the test in math and logic problems: A preliminary
comparison and assessment of ChatGPT-3.5, ChatGPT-4, and Google Bard [68.8204255655161]
曖昧さがなく、プレーンテキストのみで完全に記述され、ユニークな、明確に定義された正しい回答を持つ、30の質問を使用します。
回答は記録され、議論され、その強みと弱点を強調します。
その結果,ChatGPT-4はChatGPT-3.5より優れていた。
論文 参考訳(メタデータ) (2023-05-30T11:18:05Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - CheerBots: Chatbots toward Empathy and Emotionusing Reinforcement
Learning [60.348822346249854]
本研究では,複数の共感型チャットボットがユーザの暗黙の感情を理解し,複数の対話のターンに対して共感的に応答する枠組みを提案する。
チャットボットをCheerBotsと呼びます。CheerBotsは検索ベースまたは生成ベースで、深い強化学習によって微調整されます。
共感的態度で反応するため,CheerBotsの学習支援としてシミュレーションエージェントである概念人間モデルを開発し,今後のユーザの感情状態の変化を考慮し,共感を喚起する。
論文 参考訳(メタデータ) (2021-10-08T07:44:47Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。