論文の概要: FAB-Bench: A Framework for Adaptive RAG Benchmarking in Semiconductor Manufacturing
- arxiv url: http://arxiv.org/abs/2605.26476v1
- Date: Tue, 26 May 2026 02:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.586532
- Title: FAB-Bench: A Framework for Adaptive RAG Benchmarking in Semiconductor Manufacturing
- Title(参考訳): FAB-Bench:半導体製造における適応RAGベンチマークフレームワーク
- Authors: Jingbin Qian, Congwen Yi, Min Xia, Wen Wu, Jun Zhu, Jian Guan,
- Abstract要約: 半導体製造におけるRAGシステムの適応ベンチマークのためのエンドツーエンドフレームワークであるFAB-Benchを紹介する。
FAB-Benchは、事実的正確性、文脈的利用、完全性、検索関連性、技術的な深さ、推論一貫性を測定する6つの診断指標を定義している。
1,300以上の候補から,3つの合成戦略にまたがる200の問合せ対の高品質なベンチマークを算出した。
- 参考スコア(独自算出の注目度): 21.340021473068663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become critical for knowledge-intensive applications, yet evaluating its performance in vertical domains remains difficult due to domain complexity, diverse context scales, and heavy reliance on expert assessments that are costly, inconsistent, and non-scalable. We introduce FAB-Bench, an end-to-end framework for adaptive benchmarking of RAG systems in semiconductor manufacturing. FAB-Bench defines six diagnostic metrics measuring factual accuracy, contextual utilization, completeness, retrieval relevance, technical depth, and reasoning consistency. The framework couples retriever diagnostics with generator-level reasoning analysis across context windows of 4K-32K tokens, quantifying how retrieval precision and generative fidelity co-evolve as contextual scope expands. From over 1,300 generated candidates, we curated a high-quality benchmark of 200 query-answer pairs spanning three synthesis strategies: needle-in-haystack, intra-document multi-topic, and cross-document multi-hop. Systematic evaluation across four LLMs and four RAG frameworks reveals three distinct context-scaling behaviors: logarithmic growth, early saturation, and cold-start dynamics, and identifies attention dilution as the primary mechanism behind performance degradation at extreme context lengths. Cross-framework validation on three additional production RAG systems confirms evaluation portability.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、知識集約的なアプリケーションでは重要になっているが、ドメインの複雑さ、多様なコンテキストスケール、そしてコストがかかり、一貫性がなく、スケールできない専門家の評価に大きく依存しているため、垂直領域のパフォーマンスの評価は難しいままである。
半導体製造におけるRAGシステムの適応ベンチマークのためのエンドツーエンドフレームワークであるFAB-Benchを紹介する。
FAB-Benchは、事実的正確性、文脈的利用、完全性、検索関連性、技術的な深さ、推論一貫性を測定する6つの診断指標を定義している。
このフレームワークは、4K-32Kトークンのコンテキストウィンドウをまたいだジェネレータレベルの推論分析と組み合わせ、コンテキストスコープが拡大するにつれて、検索精度と生成フィデリティが共進化する様子を定量化する。
1,300以上の候補から,ニードル・イン・ヘイスタック,ドキュメント内マルチトピック,クロスドキュメントマルチホップという3つの合成戦略にまたがる200の問合せ対の高品質なベンチマークを算出した。
4つのLDMと4つのRAGフレームワークの体系的評価により、対数的成長、早期飽和、冷間開始ダイナミクスの3つの異なるコンテキストスケーリングの挙動が明らかとなり、過度なコンテキスト長におけるパフォーマンス劣化の背後にある主要なメカニズムとして注意の希釈が認識される。
3つの追加生産RAGシステムにおけるクロスフレーム検証は、評価ポータビリティを確認する。
関連論文リスト
- Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems [55.04168927059962]
推論集約的な検索は、単にトピックの類似性に一致するのではなく、下流の推論を支持する証拠を明らかにすることを目的としている。
BRIGHT-Proは、専門家による注釈付きベンチマークで、各クエリを複数アスペクトのゴールドエビデンスで拡張する。
また,相補的な正と正条件の強陰性を生成するアスペクト分解型合成コーパスであるRTriever-Synthを構築した。
論文 参考訳(メタデータ) (2026-05-05T17:42:50Z) - Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework [2.2782316435989562]
企業環境における検索・拡張生成システムの性能評価は多次元・複合的要因によって管理される。
既存の学術ベンチマークでは、これらのインターロックの課題を体系的に診断することができない。
本研究は, 4軸の難易度分類を定義し, 企業RAGベンチマークに組み込んで, 潜在的なシステムの弱点を診断する多次元診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:10:37Z) - MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome [109.15093810810214]
MiroEvalはディープリサーチシステムのベンチマークおよび評価フレームワークである。
ベンチマークは、実際のユーザニーズに基づいて100のタスクで構成されている。
提案した評価スイートは3つの相補的な次元に沿って深層研究システムを評価する。
論文 参考訳(メタデータ) (2026-03-30T13:16:03Z) - RAGRouter-Bench: A Dataset and Benchmark for Adaptive RAG Routing [37.7721677767453]
適応型RAGルーティング用に設計された最初のデータセットとベンチマークであるRAG-Benchを紹介する。
RAG-Benchは、クエリコーパスの互換性の観点から検索を再考し、5つの代表的なRAGパラダイムを体系的評価のために標準化する。
DeepSeek-V3 と LLaMA-3.1-8B による実験は、単一のRAGパラダイムが普遍的に最適であることを示した。
論文 参考訳(メタデータ) (2026-01-30T20:38:11Z) - PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation [15.230902967865925]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)を強化する。
現在のベンチマークでは、ノイズの堅牢性などの幅広い側面を強調しているが、文書利用に関する体系的できめ細かい評価フレームワークは欠如している。
我々のベンチマークは、より信頼性が高く効率的なRAGシステムを開発するための再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-23T16:14:08Z) - MHTS: Multi-Hop Tree Structure Framework for Generating Difficulty-Controllable QA Datasets for RAG Evaluation [5.525151548786079]
既存のRAGベンチマークはクエリの難しさを見落とし、単純な質問や信頼性の低い評価でパフォーマンスが膨らむ。
MHTS(Multi-Hop Tree Structure)は、マルチホップツリー構造を利用して、論理的に連結されたマルチチャンククエリを生成することで、マルチホップ推論の複雑さを制御する新しいデータセット合成フレームワークである。
論文 参考訳(メタデータ) (2025-03-29T06:26:01Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。