論文の概要: Scalable and Reliable Evaluation of AI Knowledge Retrieval Systems: RIKER and the Coherent Simulated Universe
- arxiv url: http://arxiv.org/abs/2601.08847v2
- Date: Thu, 15 Jan 2026 08:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.671824
- Title: Scalable and Reliable Evaluation of AI Knowledge Retrieval Systems: RIKER and the Coherent Simulated Universe
- Title(参考訳): AI知識検索システムのスケーラブルで信頼性の高い評価:RIKERとコヒーレント・シミュレート・ユニバース
- Authors: JV Roig,
- Abstract要約: RIKER (Retrieval Intelligence and Knowledge extract Rating) は、パラダイムの逆転に基づくベンチマークであり、複製可能な方法論である。
このアプローチは、人間のアノテーションや参照モデルなしで決定論的スコアリングとスケーラブルな評価を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating knowledge systems (LLMs, RAG, knowledge graphs, etc) faces fundamental challenges: static benchmarks are vulnerable to contamination, LLM-based judges exhibit systematic biases, and ground truth extraction requires expensive human annotation. We present RIKER (Retrieval Intelligence and Knowledge Extraction Rating), both a benchmark and a replicable methodology based on paradigm inversion - generating documents from known ground truth rather than extracting ground truth from documents. This approach enables deterministic scoring and scalable evaluation without human annotation or reference models, and contamination resistance through regenerable corpora. Our evaluation of 33 models using over 21 billion tokens reveals that context length claims frequently exceed usable capacity, with significant degradation beyond 32K tokens; cross-document aggregation proves substantially harder than single-document extraction; and grounding ability and hallucination resistance are distinct capabilities - models excelling at finding facts that exist may still fabricate facts that do not. Beyond the specific benchmark, we contribute a domain-agnostic methodology for constructing scalable and contamination-resistant evaluations wherever synthetic documents can be generated from structured ground truth.
- Abstract(参考訳): 静的ベンチマークは汚染に対して脆弱であり、LCMベースの裁判官は体系的なバイアスを示し、地上の真実抽出には高価なアノテーションが必要である。
本稿では,RIKER(Retrieval Intelligence and Knowledge extract Rating)というベンチマークと,パラダイムの逆転に基づく再現可能な方法論を提案する。
提案手法により,人間のアノテーションや参照モデルを使わずに,決定論的評価と拡張性の評価が可能となり,コーパスによる汚染耐性が向上する。
21億以上のトークンを用いた33のモデルの評価では、コンテキスト長のクレームが使用可能な容量を頻繁に超過し、32Kトークンを超え、文書間の集約は単一文書抽出よりも著しく困難であることが示され、接地能力と幻覚抵抗は別個の能力である。
具体的なベンチマークの他に、構造化された基盤真理から合成文書を生成できるような、スケーラブルで汚染に強い評価を構築するためのドメインに依存しない手法を貢献する。
関連論文リスト
- Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems [0.33748750222488655]
GenTRECは、Large Language Model (LLM)によって生成された文書から完全に構築された最初のテストコレクションである。
我々は、生成したプロンプトのみに関連する文書を考察する一方、他の文書とトピックのペアは非関連として扱われる。
結果として得られたGenTRECコレクションは96,196のドキュメント、300のトピック、および18,964の関連性"判断"で構成されている。
論文 参考訳(メタデータ) (2025-01-05T00:27:36Z) - Face the Facts! Evaluating RAG-based Pipelines for Professional Fact-Checking [12.588609578501078]
この作業は、Retrieval-Augmented Generationパラダイムに基づいた自動ファクトチェックのための現在の最先端パイプラインのいくつかの制約を取り上げる。
我々の目標は、プロのファクトチェックプラクティス、RAGベースのバリデーション生成手法に従って、ベンチマークを行うことです。
論文 参考訳(メタデータ) (2024-12-19T18:57:11Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文 参考訳(メタデータ) (2024-02-23T04:23:33Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。