論文の概要: FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
- arxiv url: http://arxiv.org/abs/2504.13128v2
- Date: Fri, 13 Jun 2025 00:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 15:41:31.097666
- Title: FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
- Title(参考訳): FreshStack: 技術的ドキュメントの検索を評価するためのリアルなベンチマークを構築する
- Authors: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov,
- Abstract要約: 情報検索(IR)評価ベンチマークを自動構築するための総合的なフレームワークであるFreshStackを紹介する。
FreshStackでは、コードと技術ドキュメントからの自動コーパス収集、コミュニティに質問された質問と回答からのナゲット生成、ナゲットレベルのサポートが実施されている。
FreshStackを使って、急速に成長する、最近の、ニッチなトピックに関する5つのデータセットを構築し、タスクが十分に困難であることを保証しています。
- 参考スコア(独自算出の注目度): 53.5649975411777
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce FreshStack, a holistic framework for automatically building information retrieval (IR) evaluation benchmarks by incorporating challenging questions and answers. FreshStack conducts the following steps: (1) automatic corpus collection from code and technical documentation, (2) nugget generation from community-asked questions and answers, and (3) nugget-level support, retrieving documents using a fusion of retrieval techniques and hybrid architectures. We use FreshStack to build five datasets on fast-growing, recent, and niche topics to ensure the tasks are sufficiently challenging. On FreshStack, existing retrieval models, when applied out-of-the-box, significantly underperform oracle approaches on all five topics, denoting plenty of headroom to improve IR quality. In addition, we identify cases where rerankers do not improve first-stage retrieval accuracy (two out of five topics) and oracle context helps an LLM generator generate a high-quality RAG answer. We hope FreshStack will facilitate future work toward constructing realistic, scalable, and uncontaminated IR and RAG evaluation benchmarks.
- Abstract(参考訳): 情報検索(IR)評価ベンチマークを自動的に構築するための総合的なフレームワークであるFreshStackを紹介した。
1) コードと技術ドキュメントからの自動コーパス収集,(2) コミュニティからの質問や回答からのナゲット生成,(3) ナゲットレベルのサポート,(3) 検索技術とハイブリッドアーキテクチャの融合によるドキュメントの検索。
FreshStackを使って、急速に成長する、最近の、ニッチなトピックに関する5つのデータセットを構築し、タスクが十分に困難であることを保証しています。
FreshStackでは、既存の検索モデルがアウト・オブ・ザ・ボックスで適用された場合、5つのトピックすべてにおいて、非常にパフォーマンスの低いオラクルアプローチを使用しており、IR品質を改善するために多くのヘッドルームを示している。
さらに,リランカが第1段階の検索精度を向上しない場合(5つのトピックのうち2つ)を特定し,LLM生成器が高品質なRAG応答を生成するのに役立つ。
FreshStackは、現実的でスケーラブルで、汚染されていないIRおよびRAG評価ベンチマークを構築するための今後の作業を促進することを願っています。
関連論文リスト
- Rankify: A Comprehensive Python Toolkit for Retrieval, Re-Ranking, and Retrieval-Augmented Generation [15.31883349259767]
Rankifyはオープンソースのツールキットで、検索、再ランク付け、RAGをコヒーシブなフレームワーク内で統一するように設計されている。
厳密でスパースなリトリーバーを含む幅広い検索技術をサポートし、最先端のリグレードモデルも備えている。
Rankifyには、Huggingfaceで利用可能なベンチマークを容易にするために、検索済みのデータセットのコレクションが含まれている。
論文 参考訳(メタデータ) (2025-02-04T16:33:25Z) - Hierarchical Retrieval-Augmented Generation Model with Rethink for Multi-hop Question Answering [24.71247954169364]
マルチホップ質問回答 (Multi-hop Question Answering, QA) は、複雑な質問を解決するために複数の情報を統合することで複雑な推論を必要とする。
既存のQAシステムは、時代遅れの情報、コンテキストウィンドウの長さ制限、精度-量トレードオフといった課題に直面する。
本稿では,Decomposer,Definer,Retriever,Filter,Summarizerの5つのキーモジュールからなる,階層型検索拡張生成モデル(HiRAG)を提案する。
論文 参考訳(メタデータ) (2024-08-20T09:29:31Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models [12.035509884945789]
テキストと画像の両方を含む生成出力を評価するために設計されたReFeRというチューニング不要のフレームワークを導入する。
フレームワークであるReFeRを4つの多様な評価タスクで厳格に評価します。
4つの推論タスクの実験は、フレームワークのより優れた集団推論能力を示す。
論文 参考訳(メタデータ) (2024-07-16T08:25:26Z) - Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
機械学習における予測符号化ネットワーク(PCN)の効率性とスケーラビリティの問題に取り組む。
そこで我々は,PCXと呼ばれる,パフォーマンスと簡易性を重視したライブラリを提案する。
我々は,PCNの既存アルゴリズムと,生物工学的な深層学習コミュニティで普及している他の手法を併用して,このようなベンチマークを広範囲に実施する。
論文 参考訳(メタデータ) (2024-07-01T10:33:44Z) - Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track [51.25144287084172]
RAGベースの検索システムを構築、テスト、視覚化、体系的に評価するためのアリーナを持つことが不可欠である。
TREC 2024 RAG Trackを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:37:52Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Interleaving Retrieval with Chain-of-Thought Reasoning for
Knowledge-Intensive Multi-Step Questions [50.114651561111245]
マルチステップ質問応答のための新しいアプローチであるIRCoTを提案する。
CoTのステップで検索をインターリーブし、CoTで検索を誘導し、検索結果を用いてCoTを改善する。
論文 参考訳(メタデータ) (2022-12-20T18:26:34Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Answering Open-Domain Questions of Varying Reasoning Steps from Text [39.48011017748654]
我々は,テキストのオープンドメイン質問から直接回答する統一システムを開発した。
我々は、必要なすべてのサブタスクを実行するために、単一のマルチタスクトランスモデルを用いる。
我々のモデルは既存のベンチマークとこの新しいベンチマークの両方で競合性能を示す。
論文 参考訳(メタデータ) (2020-10-23T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。