論文の概要: RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation
- arxiv url: http://arxiv.org/abs/2603.20882v1
- Date: Sat, 21 Mar 2026 17:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.131933
- Title: RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation
- Title(参考訳): RubricRAG: ルーブリック生成のためのドメイン知識検索による解釈可能かつ信頼性の高いLCM評価を目指して
- Authors: Kaustubh D. Dhole, Eugene Agichtein,
- Abstract要約: 大規模言語モデル(LLM)は、スカラースコアや選好を出力する自動グレーダを使用して、ますます評価され、時には訓練される。
この解釈可能性の欠如は、モデル開発、データセットキュレーション、高レベルのデプロイメントに対する有用性を制限している。
本稿では,関連するクエリから推論時にルーリックからドメイン知識を抽出するシンプルな戦略RAGを紹介する。
- 参考スコア(独自算出の注目度): 11.21565372620296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly evaluated and sometimes trained using automated graders such as LLM-as-judges that output scalar scores or preferences. While convenient, these approaches are often opaque: a single score rarely explains why an answer is good or bad, which requirements were missed, or how a system should be improved. This lack of interpretability limits their usefulness for model development, dataset curation, and high-stakes deployment. Query-specific rubric-based evaluation offers a more transparent alternative by decomposing quality into explicit, checkable criteria. However, manually designing high-quality, query-specific rubrics is labor-intensive and cognitively demanding and not feasible for deployment. While previous approaches have focused on generating intermediate rubrics for automated downstream evaluation, it is unclear if these rubrics are both interpretable and effective for human users. In this work, we investigate whether LLMs can generate useful, instance-specific rubrics as compared to human-authored rubrics, while also improving effectiveness for identifying good responses. Through our systematic study on two rubric benchmarks, and on multiple few-shot and post-training strategies, we find that off-the-shelf LLMs produce rubrics that are poorly aligned with human-authored ones. We introduce a simple strategy, RubricRAG, which retrieves domain knowledge via rubrics at inference time from related queries. We demonstrate that RubricRAG can generate more interpretable rubrics both for similarity to human-authored rubrics, and for improved downstream evaluation effectiveness. Our results highlight both the challenges and a promising approach of scalable, interpretable evaluation through automated rubric generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、スカラースコアや嗜好を出力するLLM-as-judgesのような自動グレーダを使用して、ますます評価され、時には訓練される。
ひとつのスコアは、なぜ回答が良いのか悪いのか、どの要件が欠落しているか、どのようにシステムが改善されるべきなのかを説明することは滅多にありません。
この解釈可能性の欠如は、モデル開発、データセットキュレーション、高レベルのデプロイメントに対する有用性を制限している。
クエリ固有のルーブリックベースの評価は、品質を明示的でチェック可能な基準に分解することで、より透過的な代替手段を提供する。
しかし、手動で高品質なクエリ特化ルーブリックを設計することは、労働集約的で認知的な要求であり、デプロイには適さない。
従来の手法では, 下流自動評価のための中間ルーリックの生成に重点を置いていたが, これらのルーリックが解釈可能か, 有効かは定かでない。
本研究では,LLMが人為的なルーブリックに対して有用なインスタンス固有のルーブリックを生成できるかどうかを検討するとともに,優れた応答を識別するための有効性を向上する。
2つのルーブリックベンチマークの体系的な研究と、いくつかのショットとポストトレーニングの戦略を通じて、既成のLLMが、人間が許可したルーブリックと不整合なルーブリックを生成することが判明した。
本稿では,RubricRAGというシンプルな戦略を導入し,関連するクエリから推論時にルーブリックからドメイン知識を抽出する。
我々は,RubricRAGが人為的なルーブリックと類似し,下流評価の有効性を向上させるために,より解釈可能なルーブリックを生成することを実証した。
本結果は,自動ルーブリック生成によるスケーラブルで解釈可能な評価手法の課題と,有望なアプローチの両方を浮き彫りにした。
関連論文リスト
- Optimizing In-Context Demonstrations for LLM-based Automated Grading [31.353360036776976]
GUIDE(Grading Using Iteratively Designed Exemplars)は、経験的選択と改善を境界中心の最適化問題として再設計するフレームワークである。
物理, 化学, 教育的内容知識の実験において, GUIDE は標準的検索基準を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:52:38Z) - Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation [80.12435680651488]
本稿では,DeepResearchレポート生成に適した,人間の参照型クエリ専用ルーリックジェネレータを訓練するためのパイプラインを提案する。
まず,DeepResearchスタイルのアノテートクエリのデータセットを,ペアレポートよりも人間の好みで構築し,強化学習を通じてルーリックジェネレータを訓練する。
提案したルーリック・ジェネレータは既存のルーリック・デザイン・ストラテジーよりも、より差別的で優れたヒューマン・アライメント・インテリジェンスを実現することを実証的に示す。
論文 参考訳(メタデータ) (2026-02-03T15:09:56Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Criteria-Based LLM Relevance Judgments [5.478764356647438]
大規模言語モデル(LLM)は、プロンプトを通じて関連ラベルを直接生成することで、スケーラブルなソリューションを提供する。
LLMに基づく関連判断のための多基準フレームワークを提案し、関連性の概念を複数の基準に分解する。
以上の結果から,マルチクオリトリア判定はシステムランキング・リーダーボードの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-07-13T04:21:21Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。