論文の概要: Infini-News: Efficiently Queryable Access to 1.3 Billion Processed Common Crawl News Articles
- arxiv url: http://arxiv.org/abs/2605.18337v1
- Date: Mon, 18 May 2026 12:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.613246
- Title: Infini-News: Efficiently Queryable Access to 1.3 Billion Processed Common Crawl News Articles
- Title(参考訳): Infini-News:13億件のコモンクローリングニュース記事への効率よく検索できるアクセス
- Authors: Ruggero Marino Lazzaroni, Jana Lasser, Kirill Solovev,
- Abstract要約: 我々は2016年8月から最新のスナップショットまで,CC-Newsアーカイブ全体の検索ツールキットとインデックスを提示する。
まず、テキストを抽出し、クリーン化し、1.35億以上の記事の構造化メタデータを解析する。
第二に、3つのフロンティア言語分類器を用いた言語検出でコーパスを豊かにする。
第三に、Infini-gram indexs: suffix-array structure that researchers can search the full archive for arbitrary text pattern in sub-second time。
- 参考スコア(独自算出の注目度): 0.03219669032304847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale news corpora support a wide range of research in Computational Social Science and NLP, yet access remains constrained: commercial archives impose prohibitive costs and licensing restrictions, while open alternatives like Common Crawl's CC-News require terabyte-scale storage and computationally intensive processing. We present Infini-News, a retrieval toolkit and index for the entire CC-News archive from August 2016 to the latest available snapshot. Our contributions are threefold. First, we extract, clean the text, and parse the structured metadata of over 1.35B articles. Second, we enrich the corpus with language detection using three frontier language classifiers (GlotLID, lingua, and CommonLingua), and with multi-source geographic attribution that resolves a country of origin for 83.4% of articles across 222 countries. Third, we construct Infini-gram indexes: suffix-array structures that let researchers search the full archive for arbitrary text patterns in sub-second time. Together, these resources lower the barrier to longitudinal, cross-national media research.
- Abstract(参考訳): 大規模ニュースコーパスは計算社会科学とNLPの幅広い研究をサポートするが、アクセスは制限されている: 商用アーカイブは禁止費用とライセンスの制限を課し、Common CrawlのCC-Newsのようなオープンな代替手段はテラバイト規模のストレージと計算集約的な処理を必要とする。
2016年8月から最新のスナップショットまで,CC-Newsアーカイブ全体の検索ツールキットとインデックスであるInfini-Newsを紹介した。
私たちの貢献は3倍です。
まず、テキストを抽出し、クリーン化し、1.35億以上の記事の構造化メタデータを解析する。
第2に,3つのフロンティア言語分類器(GlotLID, lingua, CommonLingua)を用いた言語検出と,222か国で83.4%の原産地を解決した多元的地理的属性を用いてコーパスを充実させる。
第三に、Infini-gram indexs: suffix-array structure that researchers can search the full archive for arbitrary text pattern in sub-second time。
これらの資源は、縦断的かつ全国横断的なメディア研究への障壁を低くする。
関連論文リスト
- NeuCLIRTech: Chinese Monolingual and Cross-Language Information Retrieval Evaluation in a Challenging Domain [49.3943974580576]
本稿では,技術情報に対するクロスランゲージ検索のための評価収集であるNeuCLIRTechについて述べる。
このコレクションは中国語で書かれた技術文書と、その機械が英語に翻訳されたもので構成されている。
このコレクションは中国語での単言語検索と、クエリ言語としての英語による言語横断検索という2つの検索シナリオをサポートしている。
論文 参考訳(メタデータ) (2026-02-05T05:57:55Z) - MajinBook: An open catalogue of digital world literature with likes [2.6547708221528987]
MajinBookは、シャドウライブラリの使用を容易にするために設計されたオープンカタログである。
我々は3世紀にわたる英語の書籍に539,000点を超える高精度のコーパスを作成した。
論文 参考訳(メタデータ) (2025-11-14T15:44:27Z) - Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index [110.90283601829724]
ペタバイトレベルのテキストコーパスを検索可能にするシステムであるinfini-gram miniを提案する。
FMインデックスデータ構造に基づいて,本システムはコーパスの44%の大きさのインデックスを生成する。
ベンチマーク汚染の大規模解析において重要なユースケースが1つある。
論文 参考訳(メタデータ) (2025-06-13T21:13:57Z) - The taggedPBC: Annotating a massive parallel corpus for crosslinguistic investigations [0.0]
本稿では,この問題に部分的に対処するために開発された,大規模タグ付き並列データセットについて報告する。
タグ付きPBCは、1,940以上の言語からPOSタグ付き平行テキストデータを含み、155の言語ファミリーと78の分離体を表す。
このデータセットの特定のタグの精度は、既存のSOTAタグと高いソース言語の両方とよく相関している。
論文 参考訳(メタデータ) (2025-05-18T22:13:32Z) - Enhancing LLM Language Adaption through Cross-lingual In-Context Pre-training [57.62126373849383]
CrossIC-PT(クロスランガル・イン・コンテクスト・プレトレーニング)は、クロスランガル・トランスファーを強化するシンプルでスケーラブルなアプローチである。
セマンティック関連のバイリンガルウィキペディア文書を1つのコンテキストウィンドウにインターリーブすることで、CrossIC-PTサンプルを構築する。
実験の結果、CrossIC-PTは6つの対象言語にわたる3つのモデルの多言語性能を改善することが示された。
論文 参考訳(メタデータ) (2025-04-29T07:24:25Z) - ClusterChat: Multi-Feature Search for Corpus Exploration [3.4123736336071864]
ClusterChatは、クラスタベースのドキュメント組織を統合するコーパス探索用のオープンソースのシステムである。
我々は,400万の抽象PubMedデータセットを2つのケーススタディで検証した。
論文 参考訳(メタデータ) (2024-12-19T05:11:16Z) - Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers [7.161822501147275]
本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
論文 参考訳(メタデータ) (2023-08-24T00:24:42Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。