論文の概要: MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems
- arxiv url: http://arxiv.org/abs/2412.15557v2
- Date: Sun, 15 Jun 2025 13:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:29.197992
- Title: MORTAR: Multi-turn Metamorphic Testing for LLM-based Dialogue Systems
- Title(参考訳): MORTAR:LLMに基づく対話システムのためのマルチターンメタモルフィックテスト
- Authors: Guoxiang Guo, Aldeida Aleti, Neelofar Neelofar, Chakkrit Tantithamthavorn, Yuanyuan Qi, Tsong Yueh Chen,
- Abstract要約: マルチターンインタラクションは、対話システムの現実世界での一般的な使用法である。
これは主にマルチターンテストにおけるオラクルの問題に起因する。
メタモルフィックなマルチターン対話テスト手法であるMORTARを提案する。
- 参考スコア(独自算出の注目度): 9.986269647921073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread application of LLM-based dialogue systems in daily life, quality assurance has become more important than ever. Recent research has successfully introduced methods to identify unexpected behaviour in single-turn testing scenarios. However, multi-turn interaction is the common real-world usage of dialogue systems, yet testing methods for such interactions remain underexplored. This is largely due to the oracle problem in multi-turn testing, which continues to pose a significant challenge for dialogue system developers and researchers. In this paper, we propose MORTAR, a metamorphic multi-turn dialogue testing approach, which mitigates the test oracle problem in testing LLM-based dialogue systems. MORTAR formalises the multi-turn testing for dialogue systems, and automates the generation of question-answer dialogue test cases with multiple dialogue-level perturbations and metamorphic relations (MRs). The automated perturbation-MR matching mechanism allows MORTAR more flexibility and efficiency in metamorphic testing. The proposed approach is fully automated without reliance on potentially biased LLMs as test oracles. In testing six popular LLM-based dialogue systems, MORTAR reaches significantly better effectiveness with over 150\% more bugs revealed per test case when compared to the single-turn metamorphic testing baseline. On the quality of bugs, MORTAR reveals higher-quality bugs in terms of diversity, precision and uniqueness. MORTAR is expected to inspire more multi-turn testing approaches without LLM judges, and assist developers to evaluate the dialogue system performance more comprehensively with constrained test resources and budget.
- Abstract(参考訳): 日常生活におけるLLMベースの対話システムの普及により、品質保証はこれまで以上に重要になっている。
最近の研究は、単ターンテストシナリオにおける予期せぬ振る舞いを特定する方法の導入に成功している。
しかし、マルチターンインタラクションは対話システムの現実世界での一般的な利用であるが、そのようなインタラクションのテスト方法はまだ未検討である。
これは主にマルチターンテストにおけるオラクルの問題によるもので、対話システム開発者や研究者にとって大きな課題が続いている。
本稿では,LLMに基づく対話システムのテストにおいて,テストオラクル問題を軽減するメタモルフィックなマルチターン対話テスト手法であるMORTARを提案する。
MORTARは対話システムのマルチターンテストを形式化し、複数の対話レベルの摂動とメタモルフィック関係(MR)を持つ質問応答型対話テストケースの自動生成を行う。
自動摂動-MRマッチング機構により、MORTARはメタモルフィックテストの柔軟性と効率性を高めることができる。
提案手法は、潜在的な偏りのあるLCMをテストオラクルとして依存することなく、完全に自動化される。
一般的なLDMベースの6つの対話システムをテストする際、MORTARは単ターンメタモルフィックテストベースラインと比較すると、テストケースあたり150倍以上のバグが明らかになった。
バグの品質に関して、MORTARは多様性、精度、ユニークさの点で高品質なバグを明らかにします。
MORTARは、LLM審査員なしでより多ターンテストアプローチを刺激し、開発者が制限されたテストリソースと予算でより包括的な対話システムのパフォーマンスを評価するのを支援することが期待されている。
関連論文リスト
- Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Cohesive Conversations: Enhancing Authenticity in Multi-Agent Simulated Dialogues [17.38671584773247]
本稿では,Large Language Models (LLM) を用いたシミュレーションにおけるマルチエージェント対話の品質について検討する。
本稿では,発話誤りを検出し,訂正する新しいスクリーニング,診断,再生(SDR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-13T14:24:45Z) - A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems [12.999001024463453]
本稿では,既存のLLMの概要と,下流タスクにLLMを適用するためのアプローチを提案する。
LLMベースのオープンドメイン対話(ODD)とタスク指向対話(TOD)の両方をカバーするマルチターン対話システムにおける最近の進歩を詳述する。
論文 参考訳(メタデータ) (2024-02-28T03:16:44Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Are cascade dialogue state tracking models speaking out of turn in
spoken dialogues? [1.786898113631979]
本稿では,対話状態追跡のような複雑な環境下でのアートシステムのエラーを包括的に解析する。
音声MultiWozに基づいて、音声対話システムとチャットベースの対話システムとのギャップを埋めるためには、非カテゴリースロットの値の誤差に対処することが不可欠である。
論文 参考訳(メタデータ) (2023-11-03T08:45:22Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。