Fugu-MT 論文翻訳(概要): Case-Aware LLM-as-a-Judge Evaluation for Enterprise-Scale RAG Systems

論文の概要: Case-Aware LLM-as-a-Judge Evaluation for Enterprise-Scale RAG Systems

arxiv url: http://arxiv.org/abs/2602.20379v1
Date: Mon, 23 Feb 2026 21:37:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.536376
Title: Case-Aware LLM-as-a-Judge Evaluation for Enterprise-Scale RAG Systems
Title（参考訳）: 大規模RAGシステムのケースアウェアLCM-as-a-Judge評価
Authors: Mukul Chhabra, Luigi Medrano, Arush Verma,
Abstract要約: 企業向けマルチターンRAGシステムのためのケースアウェア LLM-as-a-Judge 評価フレームワークを提案する。このフレームワークは、検索品質を分離する8つの運用上の基準を使用して、各ターンを評価し、忠実度、答えユーティリティ、精度の整合性、ケース/ワークフローアライメントを判定する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Enterprise Retrieval-Augmented Generation (RAG) assistants operate in multi-turn, case-based workflows such as technical support and IT operations, where evaluation must reflect operational constraints, structured identifiers (e.g., error codes, versions), and resolution workflows. Existing RAG evaluation frameworks are primarily designed for benchmark-style or single-turn settings and often fail to capture enterprise-specific failure modes such as case misidentification, workflow misalignment, and partial resolution across turns. We present a case-aware LLM-as-a-Judge evaluation framework for enterprise multi-turn RAG systems. The framework evaluates each turn using eight operationally grounded metrics that separate retrieval quality, grounding fidelity, answer utility, precision integrity, and case/workflow alignment. A severity-aware scoring protocol reduces score inflation and improves diagnostic clarity across heterogeneous enterprise cases. The system uses deterministic prompting with strict JSON outputs, enabling scalable batch evaluation, regression testing, and production monitoring. Through a comparative study of two instruction-tuned models across short and long workflows, we show that generic proxy metrics provide ambiguous signals, while the proposed framework exposes enterprise-critical tradeoffs that are actionable for system improvement.
Abstract（参考訳）: Enterprise Retrieval-Augmented Generation (RAG)アシスタントは、技術的サポートやITオペレーションなどのケースベースのマルチターンワークフローで動作し、評価は運用上の制約、構造化識別子(エラーコード、バージョンなど)、解決ワークフローを反映しなければならない。既存のRAG評価フレームワークは、主にベンチマークスタイルやシングルターンの設定用に設計されており、ケースの誤識別、ワークフローのミスアライメント、ターン間の部分分解といった、エンタープライズ固有の障害モードのキャプチャに失敗することが多い。企業向けマルチターンRAGシステムのためのケースアウェア LLM-as-a-Judge 評価フレームワークを提案する。このフレームワークは、検索品質を分離する8つの運用上の基準を使用して、各ターンを評価し、忠実度、答えユーティリティ、精度の整合性、ケース/ワークフローアライメントを判定する。重度対応スコアリングプロトコルは、スコアインフレーションを低減し、異種企業における診断精度を向上させる。システムは厳格なJSON出力による決定論的プロンプトを使用して、スケーラブルなバッチ評価、回帰テスト、運用監視を可能にする。短いワークフローと長いワークフローにまたがる2つの命令チューニングモデルの比較研究を通じて、ジェネリックプロキシメトリクスがあいまいなシグナルを提供するのに対し、提案フレームワークは、システム改善に有効なエンタープライズクリティカルなトレードオフを公開する。

関連論文リスト

LHAW: Controllable Underspecification for Long-Horizon Tasks [8.46227536869596]
LHAW(Long-Horizon Augmenteds)は、モジュール型でデータセットに依存しない合成パイプラインである。あいまいさのLLM予測に依存するアプローチとは異なり、LHAWは経験的エージェント試行を通じて変種を検証し、観察された終端状態のばらつきに基づいて結果クリティカル、発散、良性として分類する。 TheAgentCompany、SWE-Bench Pro、MCP-Atlasから285のタスク変種をリリースし、現在のエージェントが不明瞭な設定に対して不特定性を検知し、推論し、解決する方法を測定した。
論文参考訳（メタデータ） (2026-02-11T04:49:50Z)
MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems [59.20800753428596]
マルチエージェントシステム(MAS)におけるプロセス検証の系統的研究であるMAS-ProVeを提案する。本研究は3つの検証パラダイム(LLM-as-a-Judge、報酬モデル、プロセス報酬モデル)にまたがる。プロセスレベルの検証は、常に性能を改善しておらず、しばしば高いばらつきを示す。
論文参考訳（メタデータ） (2026-02-03T03:30:36Z)
UCRBench: Benchmarking LLMs on Use Case Recovery [42.35653533011503]
ユーザゴールとサブファンクションの両方のユースケースを手作業で検証することで構築されたコード整列型ユースケースベンチマークを導入する。大規模言語モデル(LLM)の最初の体系的な研究を行い,階層的評価プロトコルを提案する。その結果,LLMはシステム機能を部分的に再構築できるが,その性能はプロジェクトによって大きく異なることがわかった。
論文参考訳（メタデータ） (2025-12-15T14:12:57Z)
Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-03T00:30:14Z)
AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。 Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文参考訳（メタデータ） (2025-09-18T05:59:04Z)
DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。 MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文参考訳（メタデータ） (2025-09-15T10:59:57Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。