論文の概要: WindTunnel -- A Framework for Community Aware Sampling of Large Corpora
- arxiv url: http://arxiv.org/abs/2410.20301v1
- Date: Sun, 27 Oct 2024 00:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:02:08.503733
- Title: WindTunnel -- A Framework for Community Aware Sampling of Large Corpora
- Title(参考訳): WindTunnel - 大規模コーパスのコミュニティアウェアサンプリングフレームワーク
- Authors: Michael Iannelli,
- Abstract要約: WindTunnelはYextで開発されたフレームワークで、大きなコーパスのサンプルを生成する。
WindTunnelは現在のサンプリング手法の制限を克服し、より正確な評価を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Conducting comprehensive information retrieval experiments, such as in search or retrieval augmented generation, often comes with high computational costs. This is because evaluating a retrieval algorithm requires indexing the entire corpus, which is significantly larger than the set of (query, result) pairs under evaluation. This issue is especially pronounced in big data and neural retrieval, where indexing becomes increasingly time-consuming and complex. In this paper, we present WindTunnel, a novel framework developed at Yext to generate representative samples of large corpora, enabling efficient end-to-end information retrieval experiments. By preserving the community structure of the dataset, WindTunnel overcomes limitations in current sampling methods, providing more accurate evaluations.
- Abstract(参考訳): 検索や検索拡張生成などの包括的な情報検索実験を行う場合、高い計算コストが伴うことが多い。
これは、検索アルゴリズムを評価するには、評価対象の(クエリ、結果)ペアのセットよりもはるかに大きいコーパス全体をインデックスする必要があるためである。
この問題は特にビッグデータやニューラル検索において顕著であり、インデックス作成は時間がかかり複雑になる。
本稿では,Yextで開発された新しいフレームワークであるWindTunnelについて述べる。
データセットのコミュニティ構造を保存することで、WindTunnelは現在のサンプリングメソッドの制限を克服し、より正確な評価を提供する。
関連論文リスト
- Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Concurrent Brainstorming & Hypothesis Satisfying: An Iterative Framework
for Enhanced Retrieval-Augmented Generation (R2CBR3H-SR) [0.456877715768796]
本研究では,革新的かつ反復的な検索拡張生成システムを提案する。
本手法は,ベクトル空間駆動型再分類機構と同時ブレーンストーミングを統合し,関連性の高い文書の検索を高速化する。
本研究は、知識集約型アプリケーションにおける資源効率の高い情報抽出と抽象化のための新しいベンチマークを定め、知的検索システムにおける最先端を推し進めるものである。
論文 参考訳(メタデータ) (2024-01-03T17:01:44Z) - LeanVec: Searching vectors faster by making them fit [1.0863382547662974]
本稿では,高次元ベクトル上での類似性探索を高速化するために,線形次元減少とベクトル量子化を組み合わせたフレームワークLeanVecを提案する。
LeanVecは、検索のスループットを最大3.7倍改善し、インデックスビルド時間を最大4.9倍高速化する、最先端の結果を生成する。
論文 参考訳(メタデータ) (2023-12-26T21:14:59Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - A Hierarchical Approach to Scaling Batch Active Search Over Structured
Data [0.5076419064097732]
本稿では,能動探索を大規模なバッチサイズに拡張するために,帯域幅アルゴリズムに基づく汎用階層型フレームワークを提案する。
HBBSの応用は、大規模なバッチ実験が研究プロセスに欠かせない現代生物学に重点を置いている。
論文 参考訳(メタデータ) (2020-07-20T16:50:25Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。