論文の概要: CLASSLA-web: Comparable Web Corpora of South Slavic Languages Enriched with Linguistic and Genre Annotation
- arxiv url: http://arxiv.org/abs/2403.12721v2
- Date: Tue, 26 Mar 2024 14:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 21:24:37.972755
- Title: CLASSLA-web: Comparable Web Corpora of South Slavic Languages Enriched with Linguistic and Genre Annotation
- Title(参考訳): CLASSLA-web: 言語とジェネリックアノテーションに富んだ南スラヴ語の比較可能なWebコーパス
- Authors: Nikola Ljubešić, Taja Kuzman,
- Abstract要約: 本稿では,スロベニア人,クロアチア人,ボスニア人,モンテネグロ人,セルビア人,マケドニア人,ブルガリア人のウェブコーパスを比較検討する。
これらのコーパスの収集には、合計で2600万件の文書から13億件のトークンが含まれている。
全てのコーパスは、最先端のCLASSLA-Stanza言語処理パイプラインに言語的に注釈付けされていた。
- 参考スコア(独自算出の注目度): 4.450536872346658
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a collection of highly comparable web corpora of Slovenian, Croatian, Bosnian, Montenegrin, Serbian, Macedonian, and Bulgarian, covering thereby the whole spectrum of official languages in the South Slavic language space. The collection of these corpora comprises a total of 13 billion tokens of texts from 26 million documents. The comparability of the corpora is ensured by a comparable crawling setup and the usage of identical crawling and post-processing technology. All the corpora were linguistically annotated with the state-of-the-art CLASSLA-Stanza linguistic processing pipeline, and enriched with document-level genre information via the Transformer-based multilingual X-GENRE classifier, which further enhances comparability at the level of linguistic annotation and metadata enrichment. The genre-focused analysis of the resulting corpora shows a rather consistent distribution of genres throughout the seven corpora, with variations in the most prominent genre categories being well-explained by the economic strength of each language community. A comparison of the distribution of genre categories across the corpora indicates that web corpora from less developed countries primarily consist of news articles. Conversely, web corpora from economically more developed countries exhibit a smaller proportion of news content, with a greater presence of promotional and opinionated texts.
- Abstract(参考訳): 本稿では,スロベニア語,クロアチア語,ボスニア語,モンテネグロ語,セルビア語,マケドニア語,ブルガリア語に匹敵するウェブコーパスのコレクションについて述べる。
これらのコーパスの収集には、合計で2600万件の文書から13億件のトークンが含まれている。
コーパスの互換性は、同等のクローリング設定と同一のクローリングおよび後処理技術の使用によって保証される。
全てのコーパスは、最先端のCLASSLA-Stanza言語処理パイプラインに言語的に注釈付けされ、トランスフォーマーベースの多言語X-GENRE分類器を介して文書レベルのジャンル情報に富んだ。
ジャンルに焦点を当てたコーパスの分析は、7つのコーパスを通して比較的一貫したジャンルの分布を示しており、最も顕著なジャンルカテゴリーのバリエーションは、各言語コミュニティの経済的強みによって明確に説明されている。
コーパスにおけるジャンルカテゴリーの分布の比較は, 先進国からのウェブコーパスは, 主にニュース記事から成り立っていることを示している。
逆に、経済的に先進国からのウェブコーパスは、宣伝文や意見文の存在感が高まり、ニュースコンテンツの割合が少なくなる。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - New Textual Corpora for Serbian Language Modeling [0.0]
古いコーパスと新しいコーパスの両方のユニークさは、周波数ベースの幾何的手法によってアクセスされる。
本稿では,セルビア全大学における博士論文リポジトリに保管されている博士論文に基づく新しい高品質コーパス,および同ソースからの同時翻訳コーパスの3つの新しいコーパスを紹介する。
論文 参考訳(メタデータ) (2024-05-15T11:05:16Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Quality Does Matter: A Detailed Look at the Quality and Utility of Web-Mined Parallel Corpora [1.0995326465245927]
我々は,ウェブマイニングコーパスの異なる部分間で,品質に有意な差異があることを指摘した。
また、Webマイニングされたデータセットでは、最もランクの高い25k部分でトレーニングされたNeural Machine Translation(NMT)モデルが、人間の計算したデータセットと同等であることを示す。
論文 参考訳(メタデータ) (2024-02-12T07:03:14Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Corpus Similarity Measures Remain Robust Across Diverse Languages [0.0]
本稿では、レジスタ予測タスクを用いて39言語にわたる周波数ベースコーパス類似度測定実験を行った。
目的は、(i)同じ言語から異なるコーパスの間の距離を定量化し、(ii)個々のコーパスの均一性を定量化することである。
その結果, コーパス類似度の測定は, 言語家族, 書記システム, 形態素の種類にまたがる妥当性を保っていることがわかった。
論文 参考訳(メタデータ) (2022-06-09T08:17:16Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。