論文の概要: Going over Fine Web with a Fine-Tooth Comb: Technical Report of Indexing Fine Web for Problematic Content Search and Retrieval
- arxiv url: http://arxiv.org/abs/2508.21788v1
- Date: Fri, 29 Aug 2025 17:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.127721
- Title: Going over Fine Web with a Fine-Tooth Comb: Technical Report of Indexing Fine Web for Problematic Content Search and Retrieval
- Title(参考訳): ファイン・トゥ・コムによるファイン・ウェブの乗り越え:問題コンテンツ検索と検索のためのファイン・ウェブの索引付け技術報告
- Authors: Inés Altemir Marinas, Anastasiia Kucherenko, Andrei Kucharavy,
- Abstract要約: このプロジェクトでは,ElasticSearchベースのパイプラインを使用して,大規模言語トレーニングデータセットのインデックス化と分析を行うフレームワークを提案する。
我々はスイスAIのFineWeb-2コーパスに適用し、高速なクエリ性能を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) rely heavily on web-scale datasets like Common Crawl, which provides over 80\% of training data for some modern models. However, the indiscriminate nature of web crawling raises challenges in data quality, safety, and ethics. Despite the critical importance of training data quality, prior research on harmful content has been limited to small samples due to computational constraints. This project presents a framework for indexing and analyzing LLM training datasets using an ElasticSearch-based pipeline. We apply it to SwissAI's FineWeb-2 corpus (1.5TB, four languages), achieving fast query performance--most searches in milliseconds, all under 2 seconds. Our work demonstrates real-time dataset analysis, offering practical tools for safer, more accountable AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)はCommon CrawlのようなWebスケールのデータセットに大きく依存している。
しかし、Webクローリングの差別的な性質は、データ品質、安全性、倫理の課題を提起する。
データ品質のトレーニングの重要性にもかかわらず、有害なコンテンツに関する先行研究は、計算上の制約により、小さなサンプルに限られている。
このプロジェクトでは,ElasticSearchベースのパイプラインを使用して,LLMトレーニングデータセットのインデックス化と分析を行うフレームワークを提案する。
我々はスイスAIのFineWeb-2コーパス(1.5TB、4言語)に適用し、高速なクエリ性能を実現した。
私たちの研究は、より安全で説明可能なAIシステムのための実用的なツールを提供する、リアルタイムデータセット分析を実証しています。
関連論文リスト
- Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - WebDS: An End-to-End Benchmark for Web-based Data Science [59.270670758607494]
WebDSは、Webベースの初のエンドツーエンドデータサイエンスベンチマークである。
29のWebサイトにわたる870のWebベースのデータサイエンスタスクで構成されている。
WebDSは、実用的に有用なLCMベースのデータサイエンスの開発において、大きな進歩の舞台となる。
論文 参考訳(メタデータ) (2025-08-02T06:39:59Z) - DS@GT at LongEval: Evaluating Temporal Performance in Web Search Systems and Topics with Two-Stage Retrieval [44.99833362998488]
DS@GTコンペティションチームはCLEF 2025のLongEval(LongEval)実験室に参加した。
Qwant Webデータセットの分析には、時間とともにトピックモデリングを伴う探索的データ分析が含まれる。
我々のベストシステムは、トレーニングとテストデータセット全体で平均0.296のNDCG@10を達成し、2023-05で全体のスコアは0.395である。
論文 参考訳(メタデータ) (2025-07-11T07:23:08Z) - GneissWeb: Preparing High Quality Data for LLMs at Scale [15.90638423128482]
GneissWebは10兆トークンの巨大なデータセットです。
GneissWebはデータ品質と量の間の良好なトレードオフを達成する。
我々は、GneissWebデータセットを使用してトレーニングされたモデルが、FineWeb-V1.1.0でトレーニングされたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-19T00:14:29Z) - Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract) [73.57710917145212]
ランク付け学習は、入力クエリに基づいて関連するWebページを優先順位付けするために、Web検索で広く使われている。
本稿では,これらの課題に対処するために,経験的 UlineSemi-uline Supervised ulinePre-trained (GS2P) モデルを提案する。
我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
論文 参考訳(メタデータ) (2024-09-25T03:39:14Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。