論文の概要: DICE: Discrete Interpretable Comparative Evaluation with Probabilistic Scoring for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2512.22629v1
- Date: Sat, 27 Dec 2025 16:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.147896
- Title: DICE: Discrete Interpretable Comparative Evaluation with Probabilistic Scoring for Retrieval-Augmented Generation
- Title(参考訳): DICE:Retrieval-Augmented Generationのための確率的スコア付けによる離散的解釈可能な比較評価
- Authors: Shiyan Liu, Jian Ma, Rui Qu,
- Abstract要約: 我々は、RAG評価における説明可能性と堅牢性を向上させる2段階のエビデンス結合フレームワークであるDICEを紹介する。
DICEは、深い分析的推論と確率論的$A, B, Tie$スコアを組み合わせることで、透明で信頼性に配慮した判断を生成する。
本研究は,信頼性の高いRAGシステム評価のための責任,説明性,効率的なパラダイムとしてDICEを確立した。
- 参考スコア(独自算出の注目度): 2.2265635794577787
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Retrieval-Augmented Generation (RAG) systems evolve toward more sophisticated architectures, ensuring their trustworthiness through explainable and robust evaluation becomes critical. Existing scalar metrics suffer from limited interpretability, inadequate uncertainty quantification, and computational inefficiency in multi-system comparisons, hindering responsible deployment of RAG technologies. We introduce DICE (Discrete Interpretable Comparative Evaluation), a two-stage, evidence-coupled framework that advances explainability and robustness in RAG evaluation. DICE combines deep analytical reasoning with probabilistic $\{A, B, Tie\}$ scoring to produce transparent, confidence-aware judgments that support accountable system improvement through interpretable reasoning traces, enabling systematic error diagnosis and actionable insights. To address efficiency challenges at scale, DICE employs a Swiss-system tournament that reduces computational complexity from $O(N^2)$ to $O(N \log N)$, achieving a 42.9% reduction in our eight-system evaluation while preserving ranking fidelity. Validation on a curated Chinese financial QA dataset demonstrates that DICE achieves 85.7% agreement with human experts, substantially outperforming existing LLM-based metrics such as RAGAS. Our results establish DICE as a responsible, explainable, and efficient paradigm for trustworthy RAG system assessment.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムがより洗練されたアーキテクチャへと進化するにつれて、説明可能な堅牢な評価を通じて信頼性を確保することが重要である。
既存のスカラーメトリクスは、限定的な解釈可能性、不適切な不確実性定量化、マルチシステム比較における計算不効率に悩まされ、RAG技術の展開を妨げている。
DICE(Discrete Interpretable Comparison Evaluation, Discrete Interpretable Comparison Evaluation, DICE)は、RAG評価における説明可能性と堅牢性を向上する2段階のエビデンス結合フレームワークである。
DICEは、深い分析的推論と確率論的$\{A, B, Tie\}$スコアを組み合わせることで、解釈可能な推論トレースを通じて説明可能なシステム改善をサポートし、体系的なエラー診断と実行可能な洞察を可能にする透明で信頼性の高い判断を生成する。
スケールでの効率問題に対処するため、DICEは、計算複雑性を$O(N^2)$から$O(N \log N)$に減らし、ランキングの忠実さを維持しながら8システム評価を42.9%削減するスイスのトーナメントを採用している。
中国の金融QAデータセットの検証は、DICEが人間の専門家と85.7%の合意を達成し、RAGASのような既存のLCMベースの指標を大幅に上回っていることを示している。
本研究は,信頼性の高いRAGシステム評価のための責任,説明性,効率的なパラダイムとしてDICEを確立した。
関連論文リスト
- Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - MAVUL: Multi-Agent Vulnerability Detection via Contextual Reasoning and Interactive Refinement [9.377934769326416]
MAVULは、コンテキスト推論と対話的洗練を統合した、新しいマルチエージェント脆弱性検出システムである。
その結果,MAVULは従来のマルチエージェントシステムよりも62%以上の精度で,単エージェントシステムでは600%以上の性能で性能が優れていた。
論文 参考訳(メタデータ) (2025-09-30T22:21:43Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Towards a rigorous evaluation of RAG systems: the challenge of due diligence [39.577682622066256]
生成的AIの台頭は、医療や金融といったリスクの高い分野に大きな進歩をもたらした。
Retrieval-Augmented Generation (RAG)アーキテクチャは、言語モデル(LLM)と検索エンジンを組み合わせたもので、特に文書コーパスから応答を生成する能力で有名である。
本研究では、投資ファンドのデューディリジェンスに使用されるRAGシステムを評価する。
論文 参考訳(メタデータ) (2025-07-29T12:33:16Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。