Fugu-MT 論文翻訳(概要): MORTAR: Metamorphic Multi-turn Testing for LLM-based Dialogue Systems

論文の概要: MORTAR: Metamorphic Multi-turn Testing for LLM-based Dialogue Systems

arxiv url: http://arxiv.org/abs/2412.15557v1
Date: Fri, 20 Dec 2024 04:31:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.821318
Title: MORTAR: Metamorphic Multi-turn Testing for LLM-based Dialogue Systems
Title（参考訳）: MORTAR:LLMに基づく対話システムのための準同型マルチターンテスト
Authors: Guoxiang Guo, Aldeida Aleti, Neelofar Neelofar, Chakkrit Tantithamthavorn,
Abstract要約: メタモルフィックなマルチTuRnダイアローグテストアプリMORTARを提案する。 MorTARは、フォローアップ質問応答(QA)ダイアログテストケースの生成を自動化する。低コストでマルチターン対話システムのバグを検出する。
参考スコア（独自算出の注目度）: 7.7097144952707435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the widespread application of LLM-based dialogue systems in daily life, quality assurance has become more important than ever. Recent research has successfully introduced methods to identify unexpected behaviour in single-turn scenarios. However, multi-turn dialogue testing remains underexplored, with the Oracle problem in multi-turn testing posing a persistent challenge for dialogue system developers and researchers. In this paper, we propose MORTAR, a MetamORphic multi-TuRn diAlogue testing appRoach, which mitigates the test oracle problem in the assessment of LLM-based dialogue systems. MORTAR automates the generation of follow-up question-answer (QA) dialogue test cases with multiple dialogue-level perturbations and metamorphic relations. MORTAR employs a novel knowledge graph-based dialogue information model which effectively generates perturbed dialogue test datasets and detects bugs of multi-turn dialogue systems in a low-cost manner. The proposed approach does not require an LLM as a judge, eliminating potential of any biases in the evaluation step. According to the experiment results on multiple LLM-based dialogue systems and comparisons with single-turn metamorphic testing approaches, MORTAR explores more unique bugs in LLM-based dialogue systems, especially for severe bugs that MORTAR detects up to four times more unique bugs than the most effective existing metamorphic testing approach.
Abstract（参考訳）: 日常生活におけるLLMベースの対話システムの普及により、品質保証はこれまで以上に重要になっている。最近の研究は、単ターンシナリオにおける予期せぬ振る舞いを特定する方法の導入に成功している。しかし、多ターンダイアログテストはまだ未調査であり、多ターンテストにおけるオラクルの問題は、対話システム開発者や研究者にとって永続的な課題である。本稿では,メタモルフィックなマルチTuRnダイアローグテストアプリであるMORTARを提案する。 MORTARは、複数の対話レベルの摂動とメタモルフィック関係を持つフォローアップ質問応答(QA)ダイアログテストケースの自動生成を行う。 MORTARは、摂動型対話テストデータセットを効果的に生成し、低コストでマルチターン対話システムのバグを検出する、新しい知識グラフベースの対話情報モデルを採用している。提案手法はLLMを判定として必要とせず,評価段階におけるバイアスの可能性を排除している。複数のLDMベースの対話システムの実験結果と、1ターンのメタモルフィックテストアプローチとの比較により、MORTARはLLMベースの対話システムにおいて、特にMORTARが既存の最も効果的なメタモルフィックテストアプローチよりも最大4倍のユニークなバグを検出するような深刻なバグについて、よりユニークなバグを探索している。

関連論文リスト

ChatChecker: A Framework for Dialogue System Testing and Evaluation Through Non-cooperative User Simulation [0.0]
ChatCheckerは複雑な対話システムの自動評価とテストのためのフレームワークである。大きな言語モデル(LLM)を使用して、多様なユーザインタラクションをシミュレートし、対話のブレークダウンを特定し、品質を評価する。
論文参考訳（メタデータ） (2025-07-22T17:40:34Z)
Improving Deep Learning Framework Testing with Model-Level Metamorphic Testing [19.880543046739252]
DL(Deep Learning)フレームワークは、DLベースのソフトウェアシステムに必須であり、フレームワークのバグは重大な災害につながる可能性がある。研究者はDLモデルや単一インターフェースをテスト入力として採用し、実行結果を分析してバグを検出する。浮動小数点誤差、固有のランダム性、そしてテスト入力の複雑さは、実行結果を効果的に分析することを困難にしている。
論文参考訳（メタデータ） (2025-07-06T11:38:14Z)
MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation [49.12071445991853]
大規模言語モデル(textbfLLMs)は現実世界の対話アプリケーションで広く採用されている。 MARS-Benchはプレイバイプレイのテキストコメンタリーから構築され、リアルな対話を特徴とする。 MARS-Bench の実験では、クローズドソース LLM がオープンソース代替よりも大幅に優れていることも明らかにされている。
論文参考訳（メタデータ） (2025-05-27T10:28:04Z)
Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文参考訳（メタデータ） (2025-01-29T18:58:48Z)
MindScope: Exploring cognitive biases in large language models through Multi-Agent Systems [12.245537894266803]
我々は静的要素と動的要素を区別して統合する'MindScope'データセットを紹介した。静的成分は、72の認知バイアスカテゴリにまたがる5,170のオープンエンド質問からなる。動的コンポーネントはルールベースのマルチエージェント通信フレームワークを利用して、マルチラウンド対話を生成する。さらに,検索・拡張生成(RAG),競争的議論,強化学習に基づく意思決定モジュールを組み込んだ多エージェント検出手法を提案する。
論文参考訳（メタデータ） (2024-10-06T11:23:56Z)
Cohesive Conversations: Enhancing Authenticity in Multi-Agent Simulated Dialogues [17.38671584773247]
本稿では,Large Language Models (LLM) を用いたシミュレーションにおけるマルチエージェント対話の品質について検討する。本稿では,発話誤りを検出し,訂正する新しいスクリーニング,診断,再生(SDR)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-13T14:24:45Z)
Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文参考訳（メタデータ） (2024-05-21T13:19:10Z)
A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems [12.999001024463453]
本稿では,既存のLLMの概要と,下流タスクにLLMを適用するためのアプローチを提案する。 LLMベースのオープンドメイン対話(ODD)とタスク指向対話(TOD)の両方をカバーするマルチターン対話システムにおける最近の進歩を詳述する。
論文参考訳（メタデータ） (2024-02-28T03:16:44Z)
MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。 1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文参考訳（メタデータ） (2024-02-22T18:21:59Z)
A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文参考訳（メタデータ） (2023-12-24T04:50:57Z)
Are cascade dialogue state tracking models speaking out of turn in spoken dialogues? [1.786898113631979]
本稿では,対話状態追跡のような複雑な環境下でのアートシステムのエラーを包括的に解析する。音声MultiWozに基づいて、音声対話システムとチャットベースの対話システムとのギャップを埋めるためには、非カテゴリースロットの値の誤差に対処することが不可欠である。
論文参考訳（メタデータ） (2023-11-03T08:45:22Z)
Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。 6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-22T15:41:34Z)
PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文参考訳（メタデータ） (2023-09-19T08:27:09Z)
Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。 LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文参考訳（メタデータ） (2023-05-23T02:49:35Z)
In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文参考訳（メタデータ） (2022-03-16T11:58:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。