論文の概要: Wiki Dumps to Training Corpora: South Slavic Case
- arxiv url: http://arxiv.org/abs/2604.25384v1
- Date: Tue, 28 Apr 2026 08:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.78393
- Title: Wiki Dumps to Training Corpora: South Slavic Case
- Title(参考訳): ウィキ、コーポラを訓練へ-南スラヴの事例
- Authors: Mihailo Škorić,
- Abstract要約: 本稿では,7つの南スラヴ語言語に対して,生のウィキメディアダンプを高品質なテキストコーパスに変換する手法を提案する。
1つ目は、ウィキペディア、ウィキソース、ウィキブック、ウィキニューズ、ウィキクォートの生ゴミからテキストを抽出してクリーニングすることである。
第2フェーズでは、データベースや構造化知識ベースからしばしば生成される、疑わしい記事や品質の低い記事の課題に対処する。
得られたデータセットは、言語モデルを訓練したり、南スラヴ語で比較研究を行うのに適した言語的にリッチなテキストを提供することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a methodology for transforming raw Wikimedia dumps into quality textual corpora for seven South Slavic languages. The work is divided into two major phases. The first involves extracting and cleaning text from raw dumps of Wikipedia, Wikisource, Wikibooks, Wikinews, and Wikiquote, where available. This step requires careful handling of raw wiki markup to isolate, first of all, textual articles, and then usable natural language text within them. The second phase addresses the challenge of suspicious or low-quality articles, which are often generated from databases or structured knowledge bases. These articles are characterised by repetitive patterns, generic phrasing, and minimal to no original content. To mitigate their impact, a n-gram-based filtering strategy was employed to detect high levels of textual redundancy between articles and then remove such articles from the corpora entirely. The resulting datasets aim to provide linguistically rich texts suitable for training language models or conducting comparative research across South Slavic languages. By combining systematic extraction with quality control, this work contributes to the creation of reliable, high-information corpora that reflect authentic language use and cultural context. While focused on the South Slavic case in the paper, the approach is mostly language-agnostic and can be generalised to other languages and language families.
- Abstract(参考訳): 本稿では,7つの南スラヴ語言語に対して,生のウィキメディアダンプを高品質なテキストコーパスに変換する手法を提案する。
作品は2つの主要な段階に分けられる。
1つ目は、ウィキペディア、ウィキソース、ウィキブック、ウィキニューズ、ウィキクォートの生ゴミからテキストを抽出してクリーニングすることである。
このステップでは、生のwikiマークアップを慎重に扱い、まず第一に、テキスト記事を分離し、それからそれらの中で使える自然言語テキストを分離する必要がある。
第2フェーズでは、データベースや構造化知識ベースからしばしば生成される、疑わしい記事や品質の低い記事の課題に対処する。
これらの記事は、反復パターン、ジェネリックな言い回し、オリジナルコンテンツを最小限から最小限に含めることによって特徴づけられる。
その影響を軽減するため,n-gram-based filtering strategy(n-gram-based filtering strategy,n-gram-based filtering strategy,n-gram-based filtering strategy,n-gram-based filtering strategy,n-gram-based filtering strategy)を用いた。
得られたデータセットは、言語モデルを訓練したり、南スラヴ語で比較研究を行うのに適した言語的にリッチなテキストを提供することを目的としている。
体系的な抽出と品質管理を組み合わせることで、言語の使用と文化の文脈を反映した信頼性の高い高情報コーパスの作成に寄与する。
論文の中では南スラヴのケースに焦点を当てているが、アプローチは主に言語に依存しず、他の言語や言語ファミリーに一般化することができる。
関連論文リスト
- Multilingual corpora for the study of new concepts in the social sciences and humanities: [0.0]
本稿では,人文科学と社会科学の新たな概念の研究を支援するために,多言語コーパスを構築するためのハイブリッド手法を提案する。
コーパスは,(1)企業ウェブサイトから自動的に抽出されたテキストコンテンツ,(2)文書基準(年,フォーマット,複製)に従って収集・フィルタリングされた年次報告,の2つの補完資料に依存している。
処理パイプラインは、自動言語検出、非関連コンテンツのフィルタリング、関連するセグメントの抽出、構造メタデータの強化を含む。
論文 参考訳(メタデータ) (2025-12-08T10:04:50Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。