Fugu-MT 論文翻訳(概要): Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

論文の概要: Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

arxiv url: http://arxiv.org/abs/2506.12229v1
Date: Fri, 13 Jun 2025 21:13:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:45.501657
Title: Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index
Title（参考訳）: Infini-gram mini:FM-Indexによるインターネットスケールでのn-gram検索
Authors: Hao Xu, Jiacheng Liu, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi,
Abstract要約: Infini-gram miniはペタバイトレベルのテキストコーパスを検索可能にするスケーラブルなシステムである。私たちは128コアのCPUノードで、50日間で46TBのインターネットテキストをインデックスします。 Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。
参考スコア（独自算出の注目度）: 124.68209298883296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models are trained mainly on massive text data from the Internet, and it becomes increasingly important to understand this data source. Exact-match search engines enable searching in large text corpora -- counting string appearances and retrieving the enclosing documents -- yet the high storage overhead hinders their application on Internet-scale data. We present Infini-gram mini, an efficient and scalable system that can make petabyte-level text corpora searchable. Based on the FM-index data structure (Ferragina and Manzini, 2000), which simultaneously indexes and compresses text, our system creates indexes with size only 44% of the corpus. Infini-gram mini greatly improves upon the best existing implementation of FM-index in terms of indexing speed (18$\times$) and memory use during both indexing (3.2$\times$ reduction) and querying (down to a negligible amount). We index 46TB of Internet text in 50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes). We show one important use case of Infini-gram mini in a large-scale analysis of benchmark contamination. We find several core LM evaluation benchmarks to be heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead to overestimating the capabilities of language models if trained on such data. We host a benchmark contamination bulletin to share the contamination rate of many core and community-contributed benchmarks. We also release a web interface and an API endpoint to serve general search queries on Infini-gram mini indexes.
Abstract（参考訳）: 言語モデルは、主にインターネットから大量のテキストデータに基づいて訓練されており、このデータソースを理解することがますます重要になっている。 Exact-match検索エンジンは、大きなテキストコーパス(文字列の出現をカウントし、囲むドキュメントを検索する)での検索を可能にするが、高いストレージオーバーヘッドにより、インターネット規模のデータに対するアプリケーションの利用を妨げている。 Infini-gram miniは,ペタバイトレベルのテキストコーパスを検索可能にする,効率的でスケーラブルなシステムである。テキストのインデックス化と圧縮を同時に行うFM-indexデータ構造(Ferragina and Manzini, 2000)に基づいて,本システムはコーパスの44%の大きさのインデックスを生成する。 Infini-gram mini はインデックス化速度 (18$\times$) とメモリ使用率 (3.2$\times$ reduction) とクエリ(無視可能な量まで)の両方において、FM-index の最良の実装を大幅に改善する。 46TBのインターネットテキストを50日間で128コアのCPUノード(または75ノードを使用する場合19時間)でインデックスします。 Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。いくつかの中核LM評価ベンチマークがインターネットクロール(SQuADでは最大40%)で重汚染されていることが分かり、そのようなデータでトレーニングされた場合、言語モデルの性能を過大評価する可能性がある。我々は、多くのコアおよびコミュニティに分散したベンチマークの汚染率を共有するために、ベンチマーク汚染レポートをホストしている。 Infini-gram miniインデックスの一般的な検索クエリを提供するWebインターフェースとAPIエンドポイントもリリースしています。

関連論文リスト

The Curious Case of High-Dimensional Indexing as a File Structure: A Case Study of eCP-FS [0.8998543739618077]
eCP-FSは、ディスクベースのANNインデックスであるeCPのファイルベースの実装である。本稿では、ディスクベースのANNインデックスであるeCPのファイルベース実装であるeCP-FSを提案する。メモリ制約のあるシナリオでは、eCP-FSは最小限のメモリフットプリントを提供し、リソース制約やマルチインデックス環境に最適である。
論文参考訳（メタデータ） (2025-07-29T15:51:44Z)
LEANN: A Low-Storage Vector Index [70.13770593890655]
LEANNは、リソース制約されたパーソナルデバイスに最適化された、ストレージ効率の近い近接検索インデックスである。評価の結果,LEANNは原データの5%以下までインデックスサイズを縮小し,標準インデックスの最大50倍のストレージを実現した。
論文参考訳（メタデータ） (2025-06-09T22:43:30Z)
HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。 nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文参考訳（メタデータ） (2025-05-18T19:26:29Z)
MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark [1.8448587047759064]
MIRACL-VISIONは多言語視覚文書評価評価ベンチマークである。 MIRACL-VISIONは18の言語をカバーし、MIRACLデータセットの拡張である。我々は,多言語機能に対する最先端のVLMベースの埋め込みモデルのギャップを観察する。
論文参考訳（メタデータ） (2025-05-16T19:22:19Z)
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文参考訳（メタデータ） (2024-09-19T08:41:21Z)
Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。 SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文参考訳（メタデータ） (2024-05-03T08:34:13Z)
What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文参考訳（メタデータ） (2023-10-31T17:59:38Z)
LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文参考訳（メタデータ） (2023-02-06T16:24:41Z)
The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。 i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文参考訳（メタデータ） (2020-08-24T12:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。