論文の概要: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
- arxiv url: http://arxiv.org/abs/2510.09471v1
- Date: Fri, 10 Oct 2025 15:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.316647
- Title: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
- Title(参考訳): LLMトレーニングデータのフルテキスト検索
- Authors: Ines Altemir Marinas, Anastasiia Kucherenko, Alexander Sternfeld, Andrei Kucharavy,
- Abstract要約: 本稿では,Apertus LLMトレーニングデータに対するフルテキストインデックスパイプラインを提案する。
Apertus LLMファミリーのトレーニングに使用された15.2Tのうち8.6Tトークンをインデックス化することができました。
- 参考スコア(独自算出の注目度): 39.146761527401424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能はトレーニングデータによって決定される。
オープンウェイトLSMの普及にもかかわらず、LSMトレーニングデータへのアクセスは制限されている。
完全にオープンなLCMでさえ、このデータの規模は、インターネットから取り除かれた重要なデータを含む可能性があるにもかかわらず、一般の科学コミュニティにはほとんど調査されない。
本稿では,Apertus LLMトレーニングデータに対するフルテキストインデックスパイプラインを提案する。
Elasticsearchの並列インデックスと、最先端でエネルギー効率の高いARM64スーパークラスタであるAlpsインフラストラクチャを活用して、Apertus LLMファミリーのトレーニングに使用される15.2Tのうち8.6Tトークンをインデックス化することができました。
私たちの貢献は3倍です。
まず、Elasticsearchが、次世代のarm64ベースのインフラにうまく移植できることを実証する。
第2に、現代のLLMトレーニングデータセットの規模でのフルテキストインデックス化と、オープンWeb全体の実現可能性とアクセス性を示す。
最後に,これらの指標を用いて,従来アクセス不能であったジェイルブレイク非依存LSMの安全性を確保することを実証した。
我々の発見は、大規模データインデックス化を試みる他のチームにとって有用であり、よりグリーンな計算への一般的な移行を促進することを願っている。
関連論文リスト
- EnrichIndex: Using LLMs to Enrich Retrieval Indices Offline [47.064685680644345]
実世界の検索システムは、文書が関係しているかどうかを暗黙的に判断するためにしばしば必要とされる。
大規模言語モデル(LLM)は、それらの推論スキルを活用することで、そのような意味のある関連性を識別する大きな可能性を秘めている。
本稿では,LLMをオフラインで使用して意味に富んだ検索指標を構築する検索手法であるEnrichIndexを紹介する。
論文 参考訳(メタデータ) (2025-04-04T17:08:46Z) - Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.286323454512996]
大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。
本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。
HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
論文 参考訳(メタデータ) (2024-12-28T07:54:14Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Investigating Table-to-Text Generation Capabilities of LLMs in
Real-World Information Seeking Scenarios [32.84523661055774]
タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。
テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。
本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
論文 参考訳(メタデータ) (2023-05-24T10:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。