論文の概要: Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index
- arxiv url: http://arxiv.org/abs/2506.12229v1
- Date: Fri, 13 Jun 2025 21:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.501657
- Title: Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index
- Title(参考訳): Infini-gram mini:FM-Indexによるインターネットスケールでのn-gram検索
- Authors: Hao Xu, Jiacheng Liu, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi,
- Abstract要約: Infini-gram miniはペタバイトレベルのテキストコーパスを検索可能にするスケーラブルなシステムである。
私たちは128コアのCPUノードで、50日間で46TBのインターネットテキストをインデックスします。
Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。
- 参考スコア(独自算出の注目度): 124.68209298883296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are trained mainly on massive text data from the Internet, and it becomes increasingly important to understand this data source. Exact-match search engines enable searching in large text corpora -- counting string appearances and retrieving the enclosing documents -- yet the high storage overhead hinders their application on Internet-scale data. We present Infini-gram mini, an efficient and scalable system that can make petabyte-level text corpora searchable. Based on the FM-index data structure (Ferragina and Manzini, 2000), which simultaneously indexes and compresses text, our system creates indexes with size only 44% of the corpus. Infini-gram mini greatly improves upon the best existing implementation of FM-index in terms of indexing speed (18$\times$) and memory use during both indexing (3.2$\times$ reduction) and querying (down to a negligible amount). We index 46TB of Internet text in 50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes). We show one important use case of Infini-gram mini in a large-scale analysis of benchmark contamination. We find several core LM evaluation benchmarks to be heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead to overestimating the capabilities of language models if trained on such data. We host a benchmark contamination bulletin to share the contamination rate of many core and community-contributed benchmarks. We also release a web interface and an API endpoint to serve general search queries on Infini-gram mini indexes.
- Abstract(参考訳): 言語モデルは、主にインターネットから大量のテキストデータに基づいて訓練されており、このデータソースを理解することがますます重要になっている。
Exact-match検索エンジンは、大きなテキストコーパス(文字列の出現をカウントし、囲むドキュメントを検索する)での検索を可能にするが、高いストレージオーバーヘッドにより、インターネット規模のデータに対するアプリケーションの利用を妨げている。
Infini-gram miniは,ペタバイトレベルのテキストコーパスを検索可能にする,効率的でスケーラブルなシステムである。
テキストのインデックス化と圧縮を同時に行うFM-indexデータ構造(Ferragina and Manzini, 2000)に基づいて,本システムはコーパスの44%の大きさのインデックスを生成する。
Infini-gram mini はインデックス化速度 (18$\times$) とメモリ使用率 (3.2$\times$ reduction) とクエリ(無視可能な量まで)の両方において、FM-index の最良の実装を大幅に改善する。
46TBのインターネットテキストを50日間で128コアのCPUノード(または75ノードを使用する場合19時間)でインデックスします。
Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。
いくつかの中核LM評価ベンチマークがインターネットクロール(SQuADでは最大40%)で重汚染されていることが分かり、そのようなデータでトレーニングされた場合、言語モデルの性能を過大評価する可能性がある。
我々は、多くのコアおよびコミュニティに分散したベンチマークの汚染率を共有するために、ベンチマーク汚染レポートをホストしている。
Infini-gram miniインデックスの一般的な検索クエリを提供するWebインターフェースとAPIエンドポイントもリリースしています。
関連論文リスト
- LEANN: A Low-Storage Vector Index [70.13770593890655]
LEANNは、リソース制約されたパーソナルデバイスに最適化された、ストレージ効率の近い近接検索インデックスである。
評価の結果,LEANNは原データの5%以下までインデックスサイズを縮小し,標準インデックスの最大50倍のストレージを実現した。
論文 参考訳(メタデータ) (2025-06-09T22:43:30Z) - HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。
我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。
nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文 参考訳(メタデータ) (2025-05-18T19:26:29Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。