論文の概要: SuiteEval: Simplifying Retrieval Benchmarks
- arxiv url: http://arxiv.org/abs/2602.18107v1
- Date: Fri, 20 Feb 2026 09:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.289483
- Title: SuiteEval: Simplifying Retrieval Benchmarks
- Title(参考訳): SuiteEval: 検索ベンチマークの簡略化
- Authors: Andrew Parry, Debasis Ganguly, Sean MacAvaney,
- Abstract要約: SuiteEvalは、エンドツーエンドの自動評価を提供する統合フレームワークである。
データローディング、インデックス付け、ランキング、メトリック計算、結果アグリゲーションを処理する。
- 参考スコア(独自算出の注目度): 29.90486933379759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information retrieval evaluation often suffers from fragmented practices -- varying dataset subsets, aggregation methods, and pipeline configurations -- that undermine reproducibility and comparability, especially for foundation embedding models requiring robust out-of-domain performance. We introduce SuiteEval, a unified framework that offers automatic end-to-end evaluation, dynamic indexing that reuses on-disk indices to minimise disk usage, and built-in support for major benchmarks (BEIR, LoTTE, MS MARCO, NanoBEIR, and BRIGHT). Users only need to supply a pipeline generator. SuiteEval handles data loading, indexing, ranking, metric computation, and result aggregation. New benchmark suites can be added in a single line. SuiteEval reduces boilerplate and standardises evaluations to facilitate reproducible IR research, as a broader benchmark set is increasingly required.
- Abstract(参考訳): 情報検索の評価は、しばしば断片化されたプラクティス(データセットのサブセット、アグリゲーションメソッド、パイプライン構成など)に悩まされ、再現性と互換性を損なう。
SuiteEvalは、自動エンドツーエンド評価、ディスク使用量を最小限に抑えるためにディスク上のインデックスを再利用する動的インデックス、主要なベンチマーク(BEIR、LoTTE、MS MARCO、NanoBEIR、BRIGHT)の組み込みサポートを提供する統合フレームワークである。
ユーザはパイプラインジェネレータを供給すればよい。
SuiteEvalはデータの読み込み、インデックス付け、ランキング、メトリック計算、結果集約を処理する。
新しいベンチマークスイートを1行で追加できる。
SuiteEvalはボイラープレートを減らし、より広範なベンチマークを必要とするため、再現可能なIR研究を促進するために評価を標準化する。
関連論文リスト
- Easy Data Unlearning Bench [53.1304932656586]
アンラーニングアルゴリズムの評価を簡略化する統一型ベンチマークスイートを導入する。
セットアップとメトリクスの標準化により、未学習のメソッド間で再現性、拡張性、公正な比較が可能になる。
論文 参考訳(メタデータ) (2026-02-18T12:20:32Z) - Less is more: Not all samples are effective for evaluation [1.6456338609651404]
既存の圧縮法は、全テストセットで評価された複数の履歴モデルの正当性ラベルに依存する。
従来のモデルの性能データを必要としない履歴のないテストセット圧縮フレームワークを提案する。
提案手法は, 余剰サンプルを効果的に同定・除去し, 評価コストを90%以上削減する。
論文 参考訳(メタデータ) (2025-12-22T08:04:05Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - Bencher: Simple and Reproducible Benchmarking for Black-Box Optimization [5.703483582960509]
Bencherはブラックボックス最適化のためのモジュラーベンチマークフレームワークである。
各ベンチマークは、独自の仮想Python環境で分離され、統一されたバージョンに依存しないリモートプロシージャコール(RPC)インターフェースを介してアクセスされる。
BencherはローカルまたはリモートでDocker経由で、あるいはSingularity経由で高性能なコンピューティングクラスタにデプロイできる。
論文 参考訳(メタデータ) (2025-05-27T15:18:58Z) - VIBE: Vector Index Benchmark for Embeddings [5.449089394751681]
本稿では,ANNアルゴリズムをベンチマークするオープンソースプロジェクトであるVector Index Benchmark for Embeddings (VIBE)を紹介する。
VIBEには、現代のアプリケーションに特徴的な密着した埋め込みモデルを使用して、ベンチマークデータセットを作成するパイプラインが含まれている。
我々は、VIBEを用いてSOTAベクトルインデックスの総合的な評価を行い、12の分布内および6の分布外データセット上で21の実装をベンチマークする。
論文 参考訳(メタデータ) (2025-05-23T12:28:10Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Dynabench: Rethinking Benchmarking in NLP [82.26699038776812]
動的データセットの作成とモデルベンチマークのためのオープンソースプラットフォームであるdynabenchを紹介する。
DynabenchはWebブラウザで動作し、ループ内の人間とモデルデータセットの作成をサポートする。
私たちは、これらの概念を図示し、プラットフォームの約束を強調する4つの初期のNLPタスクを報告します。
論文 参考訳(メタデータ) (2021-04-07T17:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。