論文の概要: IRB: Automated Generation of Robust Factuality Benchmarks
- arxiv url: http://arxiv.org/abs/2602.08070v1
- Date: Sun, 08 Feb 2026 18:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.967789
- Title: IRB: Automated Generation of Robust Factuality Benchmarks
- Title(参考訳): IRB:ロバストなファクチュアリティベンチマークの自動生成
- Authors: Lam Thanh Do, Bhagyashree Taleka, Hozaifa Ammar Bhutta, Vikram Sharma Mailthody, Kevin Chen-Chuan Chang, Wen-mei Hwu,
- Abstract要約: IRBは、RAGシステムの事実を評価するためのベンチマークを自動的に生成するフレームワークである。
我々はIRBを用いて、ベンチマークを構築し、フロンティアLSMとレトリバーを評価する。
- 参考スコア(独自算出の注目度): 21.23127687776739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static benchmarks for RAG systems often suffer from rapid saturation and require significant manual effort to maintain robustness. To address this, we present IRB, a framework for automatically generating benchmarks to evaluate the factuality of RAG systems. IRB employs a structured generation pipeline utilizing \textit{factual scaffold} and \textit{algorithmic scaffold}. We utilize IRB to construct a benchmark and evaluate frontier LLMs and retrievers. Our results demonstrate that IRB poses a significant challenge for frontier LLMs in the closed-book setting. Furthermore, our evaluation suggests that reasoning LLMs are more reliable, and that improving the retrieval component may yield more cost-effective gains in RAG system correctness than scaling the generator.
- Abstract(参考訳): RAGシステムの静的ベンチマークは、しばしば急激な飽和に悩まされ、堅牢性を維持するためにかなりの手作業を必要とする。
そこで本研究では,RAGシステムの現実性を評価するためのベンチマークを自動生成するフレームワークであるIRBを提案する。
IRBは、 \textit{factual scaffold} と \textit{algorithmic scaffold} を利用した構造化生成パイプラインを使用している。
我々はIRBを用いて、ベンチマークを構築し、フロンティアLSMとレトリバーを評価する。
以上の結果から,IRBは閉本環境でのフロンティアLSMにとって重要な課題であることが示された。
さらに, LLM の推算精度が向上し, RAG システムの精度が向上する可能性が示唆された。
関連論文リスト
- Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration [14.88759517020146]
既存のRAGパイプラインは、大規模なエンティティマッチングに適用した場合、かなりの検索と生成オーバーヘッドを発生させる。
本稿では,CE-RAG4EMを導入する。CE-RAG4EMはコスト効率の高いRAGアーキテクチャで,ブロッキングベースのバッチ検索と生成による計算を削減できる。
論文 参考訳(メタデータ) (2026-02-05T14:33:00Z) - PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation [15.230902967865925]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)を強化する。
現在のベンチマークでは、ノイズの堅牢性などの幅広い側面を強調しているが、文書利用に関する体系的できめ細かい評価フレームワークは欠如している。
我々のベンチマークは、より信頼性が高く効率的なRAGシステムを開発するための再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-23T16:14:08Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Semantic Tokens in Retrieval Augmented Generation [0.0]
本稿では,確率的RAGシステムと決定論的に検証可能な応答のギャップを埋めるための評価モジュールを導入した新しい比較RAGシステムを提案する。
このフレームワークは、高い精度と検証可能性を必要とする領域において、より信頼性が高くスケーラブルな質問応答アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T16:52:06Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。
RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - Ragas: Automated Evaluation of Retrieval Augmented Generation [23.253210019550377]
RagasはRetrieval Augmented Generationパイプラインを評価するためのフレームワークである。
RAGシステムは、検索とLLMベースの生成モジュールで構成される。
論文 参考訳(メタデータ) (2023-09-26T19:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。