論文の概要: DQA: Diagnostic Question Answering for IT Support
- arxiv url: http://arxiv.org/abs/2604.05350v2
- Date: Wed, 08 Apr 2026 22:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.87374
- Title: DQA: Diagnostic Question Answering for IT Support
- Title(参考訳): DQA:ITサポートのための診断的質問に対する回答
- Authors: Vishaal Kapoor, Mariam Dundua, Sarthak Ahuja, Neda Kordjazi, Evren Yortucboylu, Vaibhavi Padala, Derek Ho, Jennifer Whitted, Rebecca Steinert,
- Abstract要約: DQAは、永続的な診断状態を維持し、検索された症例を個々の文書よりも根本原因のレベルに集約する診断質問応答フレームワークである。
我々は、リプレイベースのプロトコルを用いて、150の匿名化されたエンタープライズITサポートシナリオ上で、DQAを評価する。DQAは、3回の独立した実行で、軌道レベルの成功基準の下で78.7%の成功率を達成し、マルチターンRAGベースラインでは41.3%、平均ターンは8.4から3.9に減少する。
- 参考スコア(独自算出の注目度): 0.8965997654306227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enterprise IT support interactions are fundamentally diagnostic: effective resolution requires iterative evidence gathering from ambiguous user reports to identify an underlying root cause. While retrieval-augmented generation (RAG) provides grounding through historical cases, standard multi-turn RAG systems lack explicit diagnostic state and therefore struggle to accumulate evidence and resolve competing hypotheses across turns. We introduce DQA, a diagnostic question-answering framework that maintains persistent diagnostic state and aggregates retrieved cases at the level of root causes rather than individual documents. DQA combines conversational query rewriting, retrieval aggregation, and state-conditioned response generation to support systematic troubleshooting under enterprise latency and context constraints. We evaluate DQA on 150 anonymized enterprise IT support scenarios using a replay-based protocol. Averaged over three independent runs, DQA achieves a 78.7% success rate under a trajectory-level success criterion, compared to 41.3% for a multi-turn RAG baseline, while reducing average turns from 8.4 to 3.9.
- Abstract(参考訳): 効果的な解決には、根本原因を特定するために曖昧なユーザレポートから収集された反復的な証拠が必要です。
検索増強世代(RAG)は歴史的事例の根拠を提供するが、標準的なマルチターンRAGシステムは明確な診断状態を欠いているため、証拠の蓄積とターン間の競合仮説の解決に苦慮している。
DQAは、永続的な診断状態を維持し、検索された症例を個々の文書よりも根本原因のレベルに集約する診断質問応答フレームワークである。
DQAは、会話クエリの書き換え、検索集約、および状態条件の応答生成を組み合わせることで、エンタープライズのレイテンシとコンテキスト制約の下でのシステマティックなトラブルシューティングをサポートする。
我々は、リプレイベースのプロトコルを用いて、150の匿名化されたエンタープライズITサポートシナリオ上でDQAを評価する。
DQAは3回の独立ランで78.7%の成功率を達成したが、マルチターンRAGベースラインでは41.3%、平均ターンは8.4から3.9に減った。
関連論文リスト
- Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering [3.5512614044131596]
本稿では,3つのQAタスクにまたがって,レシーバとジェネレータを独立に評価する診断フレームワークであるRAG-Xを提案する。
隠れ障害モードを克服することで、RAG-Xは安全で検証可能な臨床RAGシステムに必要な診断透明性を提供する。
論文 参考訳(メタデータ) (2026-03-03T21:55:42Z) - When Iterative RAG Beats Ideal Evidence: A Diagnostic Study in Scientific Multi-hop Question Answering [0.2796197251957245]
我々は,同期反復検索と推論が,理想化された静的上界(Gold Context)RAGを超えることができるかどうかを考察した。
我々は,<i>No Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Iterative RAG</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>I。
モデル全体では、Iterative RAGはゴールドコンテキストを一貫して上回り、特に非推論では最大25.6ポイントまで上昇する。
論文 参考訳(メタデータ) (2026-01-27T17:35:05Z) - ART: Action-based Reasoning Task Benchmarking for Medical AI Agents [0.0]
本稿では,医療AIエージェントのためのアクションベース推論臨床タスクベンチマークを紹介する。
検索エラー、集約エラー、条件論理の誤判断の3つの主要なエラーカテゴリを同定する。
我々の4段階パイプラインは、実際の患者データに基づいて、多種多様な臨床的に検証されたタスクを生成します。
論文 参考訳(メタデータ) (2026-01-13T21:26:11Z) - ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - United We Stand: Towards End-to-End Log-based Fault Diagnosis via Interactive Multi-Task Learning [21.286258482234338]
Chimeraは、新しいエンドツーエンドのログベースの障害診断手法である。
異常検出と根本原因の局在のギャップを埋める。
産業用クラウドプラットフォームとして運用に成功している。
論文 参考訳(メタデータ) (2025-09-29T07:03:23Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - RAGProbe: An Automated Approach for Evaluating RAG Applications [1.38012307221604]
Retrieval Augmented Generation (RAG)は、ジェネレーティブAIアプリケーションを構築する際にますます利用されている。
本稿では,RAGパイプラインの故障を誘発する質問応答ペアのバリエーションを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T23:33:07Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。