論文の概要: The Growing Gains and Pains of Iterative Web Corpora Crawling: Insights from South Slavic CLASSLA-web 2.0 Corpora
- arxiv url: http://arxiv.org/abs/2601.11170v1
- Date: Fri, 16 Jan 2026 10:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.451614
- Title: The Growing Gains and Pains of Iterative Web Corpora Crawling: Insights from South Slavic CLASSLA-web 2.0 Corpora
- Title(参考訳): 反復的ウェブコーパスの増大と痛み:南スラヴのCLASSLA-Web 2.0コーパスから
- Authors: Taja Kuzman Pungeršek, Peter Rupnik, Vít Suchomel, Nikola Ljubešić,
- Abstract要約: CLASSLA-web 2.0コーパスコレクションには、7つの言語で3100万行のテキストに170億語が含まれている。
新しいウェブコーパスはトピックラベルで自動的に注釈付けされる。
CLASSLA-web 2.0と前バージョンを比較すると、テキストの5分の1が重複していることがわかった。
- 参考スコア(独自算出の注目度): 0.5666456827479577
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Crawling national top-level domains has proven to be highly effective for collecting texts in less-resourced languages. This approach has been recently used for South Slavic languages and resulted in the largest general corpora for this language group: the CLASSLA-web 1.0 corpora. Building on this success, we established a continuous crawling infrastructure for iterative national top-level domain crawling across South Slavic and related webs. We present the first outcome of this crawling infrastructure - the CLASSLA-web 2.0 corpus collection, with substantially larger web corpora containing 17.0 billion words in 38.1 million texts in seven languages: Bosnian, Bulgarian, Croatian, Macedonian, Montenegrin, Serbian, and Slovenian. In addition to genre categories, the new version is also automatically annotated with topic labels. Comparing CLASSLA-web 2.0 with its predecessor reveals that only one-fifth of the texts overlap, showing that re-crawling after just two years yields largely new content. However, while the new web crawls bring growing gains, we also notice growing pains - a manual inspection of top domains reveals a visible degradation of web content, as machine-generated sites now contribute a significant portion of texts.
- Abstract(参考訳): 国家トップレベルのドメインをクローリングすることは、少ないリソースの言語でテキストを集めるのに非常に効果的であることが証明されている。
このアプローチは、最近南スラヴ語で使われ、この言語グループで最大の汎用コーパスであるCLASSLA-web 1.0コーパスとなった。
この成功に基づいて、我々は南スラヴと関連するウェブをまたがる反復的な全国トップレベルドメインのための連続的なクローリング基盤を構築しました。
CLASSLA-web 2.0コーパスコレクションは、ボスニア語、ブルガリア語、クロアチア語、マケドニア語、モンテネグロ語、セルビア語、スロベニア語という7つの言語で17.0億語、3810万行のテキストを含む非常に大きなウェブコーパスである。
ジャンルのカテゴリに加えて、新しいバージョンはトピックラベルで自動的に注釈付けされる。
CLASSLA-web 2.0と前者のCLASSLA-web 2.0を比較すると、テキストの5分の1だけが重複しており、わずか2年で再クロールすると、ほとんど新しいコンテンツが得られる。
しかし、新しいwebクローラーは増加をもたらしているが、増大する苦痛にも気づく。トップドメインの手動検査は、マシン生成サイトがテキストのかなりの部分を寄与しているため、Webコンテンツの可視的劣化を明らかにしている。
関連論文リスト
- CLASSLA-web: Comparable Web Corpora of South Slavic Languages Enriched with Linguistic and Genre Annotation [4.450536872346658]
本稿では,スロベニア人,クロアチア人,ボスニア人,モンテネグロ人,セルビア人,マケドニア人,ブルガリア人のウェブコーパスを比較検討する。
これらのコーパスの収集には、合計で2600万件の文書から13億件のトークンが含まれている。
全てのコーパスは、最先端のCLASSLA-Stanza言語処理パイプラインに言語的に注釈付けされていた。
論文 参考訳(メタデータ) (2024-03-19T13:30:47Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - esCorpius: A Massive Spanish Crawling Corpus [2.262838186547612]
esCorpiusはスペインのクロールコーパスで、Common Crawlデータの約1Pbから得られた。
スペイン語で最も広範なコーパスであり、ウェブテキストの内容の抽出、浄化、重複の程度である。
論文 参考訳(メタデータ) (2022-06-30T09:29:18Z) - Language-Agnostic Website Embedding and Classification [12.86558129722198]
92言語で100万以上のWebサイトを持つデータセットをリリースし、Curlieから相対ラベルを収集しました。
ホームページに基づいてWebサイトを分類・埋め込みするマシン学習モデルであるHomepage2Vecを紹介する。
ホームページ2Vecは、マクロ平均F1スコア0.90のWebサイトを正しく分類し、低および高ソース言語で安定したパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-10T22:31:48Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。