論文の概要: MORTAR: Metamorphic Multi-turn Testing for LLM-based Dialogue Systems
- arxiv url: http://arxiv.org/abs/2412.15557v1
- Date: Fri, 20 Dec 2024 04:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:43.529865
- Title: MORTAR: Metamorphic Multi-turn Testing for LLM-based Dialogue Systems
- Title(参考訳): MORTAR:LLMに基づく対話システムのための準同型マルチターンテスト
- Authors: Guoxiang Guo, Aldeida Aleti, Neelofar Neelofar, Chakkrit Tantithamthavorn,
- Abstract要約: メタモルフィックなマルチTuRnダイアローグテストアプリMORTARを提案する。
MorTARは、フォローアップ質問応答(QA)ダイアログテストケースの生成を自動化する。
低コストでマルチターン対話システムのバグを検出する。
- 参考スコア(独自算出の注目度): 7.7097144952707435
- License:
- Abstract: With the widespread application of LLM-based dialogue systems in daily life, quality assurance has become more important than ever. Recent research has successfully introduced methods to identify unexpected behaviour in single-turn scenarios. However, multi-turn dialogue testing remains underexplored, with the Oracle problem in multi-turn testing posing a persistent challenge for dialogue system developers and researchers. In this paper, we propose MORTAR, a MetamORphic multi-TuRn diAlogue testing appRoach, which mitigates the test oracle problem in the assessment of LLM-based dialogue systems. MORTAR automates the generation of follow-up question-answer (QA) dialogue test cases with multiple dialogue-level perturbations and metamorphic relations. MORTAR employs a novel knowledge graph-based dialogue information model which effectively generates perturbed dialogue test datasets and detects bugs of multi-turn dialogue systems in a low-cost manner. The proposed approach does not require an LLM as a judge, eliminating potential of any biases in the evaluation step. According to the experiment results on multiple LLM-based dialogue systems and comparisons with single-turn metamorphic testing approaches, MORTAR explores more unique bugs in LLM-based dialogue systems, especially for severe bugs that MORTAR detects up to four times more unique bugs than the most effective existing metamorphic testing approach.
- Abstract(参考訳): 日常生活におけるLLMベースの対話システムの普及により、品質保証はこれまで以上に重要になっている。
最近の研究は、単ターンシナリオにおける予期せぬ振る舞いを特定する方法の導入に成功している。
しかし、多ターンダイアログテストはまだ未調査であり、多ターンテストにおけるオラクルの問題は、対話システム開発者や研究者にとって永続的な課題である。
本稿では,メタモルフィックなマルチTuRnダイアローグテストアプリであるMORTARを提案する。
MORTARは、複数の対話レベルの摂動とメタモルフィック関係を持つフォローアップ質問応答(QA)ダイアログテストケースの自動生成を行う。
MORTARは、摂動型対話テストデータセットを効果的に生成し、低コストでマルチターン対話システムのバグを検出する、新しい知識グラフベースの対話情報モデルを採用している。
提案手法はLLMを判定として必要とせず,評価段階におけるバイアスの可能性を排除している。
複数のLDMベースの対話システムの実験結果と、1ターンのメタモルフィックテストアプローチとの比較により、MORTARはLLMベースの対話システムにおいて、特にMORTARが既存の最も効果的なメタモルフィックテストアプローチよりも最大4倍のユニークなバグを検出するような深刻なバグについて、よりユニークなバグを探索している。
関連論文リスト
- RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
RAD-Benchは、検索後のマルチターン対話における大規模言語モデルの能力を評価するために設計されたベンチマークである。
また, LLM の評価結果から, モデルの性能が劣化し, 追加の条件や制約が適用されることが判明した。
論文 参考訳(メタデータ) (2024-09-19T08:26:45Z) - Cohesive Conversations: Enhancing Authenticity in Multi-Agent Simulated Dialogues [17.38671584773247]
本稿では,Large Language Models (LLM) を用いたシミュレーションにおけるマルチエージェント対話の品質について検討する。
本稿では,発話誤りを検出し,訂正する新しいスクリーニング,診断,再生(SDR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-13T14:24:45Z) - A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems [12.999001024463453]
本稿では,既存のLLMの概要と,下流タスクにLLMを適用するためのアプローチを提案する。
LLMベースのオープンドメイン対話(ODD)とタスク指向対話(TOD)の両方をカバーするマルチターン対話システムにおける最近の進歩を詳述する。
論文 参考訳(メタデータ) (2024-02-28T03:16:44Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Are cascade dialogue state tracking models speaking out of turn in
spoken dialogues? [1.786898113631979]
本稿では,対話状態追跡のような複雑な環境下でのアートシステムのエラーを包括的に解析する。
音声MultiWozに基づいて、音声対話システムとチャットベースの対話システムとのギャップを埋めるためには、非カテゴリースロットの値の誤差に対処することが不可欠である。
論文 参考訳(メタデータ) (2023-11-03T08:45:22Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。