論文の概要: FineFreq: A Multilingual Character Frequency Dataset from Web-Scale Text
- arxiv url: http://arxiv.org/abs/2512.09701v1
- Date: Wed, 10 Dec 2025 14:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.561683
- Title: FineFreq: A Multilingual Character Frequency Dataset from Web-Scale Text
- Title(参考訳): FineFreq: Webスケールテキストによる多言語文字周波数データセット
- Authors: Binbin XU,
- Abstract要約: このデータセットには、57TBの圧縮テキストから処理された96兆文字の周波数カウントが含まれている。
FineFreqは、アグリゲートと年単位の周波数で文字ごとの統計情報を提供し、きめ細かい時間分析を可能にする。
完全なデータセットは、CSVとParquetフォーマットの両方でリリースされており、関連するメタデータはGitHubとHuggingFaceで入手できる。
- 参考スコア(独自算出の注目度): 2.916825787246156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FineFreq, a large-scale multilingual character frequency dataset derived from the FineWeb and FineWeb2 corpora, covering over 1900 languages and spanning 2013-2025. The dataset contains frequency counts for 96 trillion characters processed from 57 TB of compressed text. For each language, FineFreq provides per-character statistics with aggregate and year-level frequencies, allowing fine-grained temporal analysis. The dataset preserves naturally occurring multilingual features such as cross-script borrowings, emoji, and acronyms without applying artificial filtering. Each character entry includes Unicode metadata (category, script, block), enabling domain-specific or other downstream filtering and analysis. The full dataset is released in both CSV and Parquet formats, with associated metadata, available on GitHub and HuggingFace. https://github.com/Bin-2/FineFreq
- Abstract(参考訳): FineWeb と FineWeb2 コーパスから派生した大規模多言語文字頻度データセットである FineFreq について述べる。
このデータセットには、57TBの圧縮テキストから処理された96兆文字の周波数カウントが含まれている。
各言語について、FineFreqは、アグリゲートと年単位の周波数で文字ごとの統計情報を提供し、きめ細かい時間分析を可能にする。
このデータセットは、人工フィルタリングを適用することなく、クロススクリプトの借用、絵文字、頭字語などの自然に発生する多言語の特徴を保存する。
各文字エントリにはUnicodeメタデータ(カテゴリ、スクリプト、ブロック)が含まれており、ドメイン固有のその他の下流フィルタリングと分析を可能にする。
完全なデータセットは、CSVとParquetフォーマットの両方でリリースされており、関連するメタデータはGitHubとHuggingFaceで入手できる。
https://github.com/Bin-2/FineFreq
関連論文リスト
- HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models [25.953042884928006]
約200の言語に対して、オープンで、非常に大きく、高品質で、リッチな注釈付きテキストデータセットを提供するためのイニシアティブを提示します。
30兆のトークンで、これはおそらくLLM事前学習データの多言語収集としては最大である。
57種類のモノリンガルエンコーダ-デコーダモデルと、少数のモノリンガルGPT様参照モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2025-11-02T20:16:38Z) - CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.0507412649934]
CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。
CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
論文 参考訳(メタデータ) (2025-09-17T16:45:22Z) - EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。
本稿では,文字位置の符号化と位置の符号化手法を提案する。
我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文 参考訳(メタデータ) (2025-05-30T09:55:39Z) - WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval [0.8478469524684645]
WebFAQ(英語: WebFAQ)は、FAQスタイルのスキーマ.orgアノテーションから派生した、オープンドメインの質問応答データセットの大規模なコレクションである。
データ収集は、75言語にまたがる9600万の自然質問回答(QA)ペアで構成されており、うち4700万(49%)が非英語のサンプルである。
WebFAQは、合計1120万QAペアのモノリンガル検索ベンチマーク20の基盤となっている。
論文 参考訳(メタデータ) (2025-02-28T10:46:52Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - A Multilingual Translator to SQL with Database Schema Pruning to Improve
Self-Attention [0.0]
最大512個の入力トークンを持つ変換器で長文シーケンスを処理できる技術を提案する。
さらに,データを拡張したスパイダーデータセットを4つの言語で同時に調整したmT5大モデルを用いて多言語アプローチを行った。
論文 参考訳(メタデータ) (2023-06-25T14:28:12Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - MLS: A Large-Scale Multilingual Dataset for Speech Research [37.803100082550294]
データセットは、LibriVoxの読み出しオーディオブックに由来する。
英語の約44.5K時間と、他の言語で約6K時間を含む8つの言語で構成されている。
論文 参考訳(メタデータ) (2020-12-07T01:53:45Z) - TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval [111.93601253692165]
テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。
TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
論文 参考訳(メタデータ) (2020-01-24T17:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。