論文の概要: WindTunnel -- A Framework for Community Aware Sampling of Large Corpora
- arxiv url: http://arxiv.org/abs/2410.20301v1
- Date: Sun, 27 Oct 2024 00:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:02:08.503733
- Title: WindTunnel -- A Framework for Community Aware Sampling of Large Corpora
- Title(参考訳): WindTunnel - 大規模コーパスのコミュニティアウェアサンプリングフレームワーク
- Authors: Michael Iannelli,
- Abstract要約: WindTunnelはYextで開発されたフレームワークで、大きなコーパスのサンプルを生成する。
WindTunnelは現在のサンプリング手法の制限を克服し、より正確な評価を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Conducting comprehensive information retrieval experiments, such as in search or retrieval augmented generation, often comes with high computational costs. This is because evaluating a retrieval algorithm requires indexing the entire corpus, which is significantly larger than the set of (query, result) pairs under evaluation. This issue is especially pronounced in big data and neural retrieval, where indexing becomes increasingly time-consuming and complex. In this paper, we present WindTunnel, a novel framework developed at Yext to generate representative samples of large corpora, enabling efficient end-to-end information retrieval experiments. By preserving the community structure of the dataset, WindTunnel overcomes limitations in current sampling methods, providing more accurate evaluations.
- Abstract(参考訳): 検索や検索拡張生成などの包括的な情報検索実験を行う場合、高い計算コストが伴うことが多い。
これは、検索アルゴリズムを評価するには、評価対象の(クエリ、結果)ペアのセットよりもはるかに大きいコーパス全体をインデックスする必要があるためである。
この問題は特にビッグデータやニューラル検索において顕著であり、インデックス作成は時間がかかり複雑になる。
本稿では,Yextで開発された新しいフレームワークであるWindTunnelについて述べる。
データセットのコミュニティ構造を保存することで、WindTunnelは現在のサンプリングメソッドの制限を克服し、より正確な評価を提供する。
関連論文リスト
- A Query-Driven Approach to Space-Efficient Range Searching [12.760453906939446]
クエリのほぼ直線的なサンプルは、クエリ中に訪れたノード数がほぼ最適であるパーティションツリーを構築することができることを示す。
我々は、ノード処理を分類問題として扱い、浅いニューラルネットワークのような高速な分類器を活用して、実験的に効率的なクエリ時間を得ることにより、このアプローチを強化する。
我々のアルゴリズムは,クエリのサンプルに基づいて,セパレータに関連付けられたノードを持つバランスのとれたツリーを構築し,クエリの待ち行列を最小化する。
論文 参考訳(メタデータ) (2025-02-19T12:01:00Z) - Generating Realistic Synthetic Head Rotation Data for Extended Reality using Deep Learning [12.131070527836005]
我々は、よく知られたジェネレーティブ・アドバイサル・ネットワークの拡張であるTimeGANに基づくヘッドローテーション・時系列生成器を提案する。
このアプローチは、測定された時系列の分布と密接に一致する新しいサンプルで、ヘッドローテーションのデータセットを拡張することができる。
論文 参考訳(メタデータ) (2025-01-15T12:14:15Z) - Unsupervised Query Routing for Retrieval Augmented Generation [64.47987041500966]
本稿では,検索強化応答の質を評価するために,"upper-bound"応答を構成する新しい教師なし手法を提案する。
この評価により、与えられたクエリに対して最も適切な検索エンジンを決定することができる。
手動のアノテーションをなくすことで、大規模なユーザクエリを自動的に処理し、トレーニングデータを作成することができる。
論文 参考訳(メタデータ) (2025-01-14T02:27:06Z) - Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。