Fugu-MT 論文翻訳(概要): How Good is Your Wikipedia?

論文の概要: How Good is Your Wikipedia?

arxiv url: http://arxiv.org/abs/2411.05527v1
Date: Fri, 08 Nov 2024 12:35:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.752069
Title: How Good is Your Wikipedia?
Title（参考訳）: ウィキペディアってどれぐらいいいの?
Authors: Kushal Tatariya, Artur Kulmizev, Wessel Poelman, Esther Ploeger, Marcel Bollmann, Johannes Bjerva, Jiaming Luo, Heather Lent, Miryam de Lhoneux,
Abstract要約: 本稿では,ウィキペディアのデータ品質を,様々な品質フィルタリング手法を応用して,非英語環境におけるデータ品質を批判的に検証する。データ品質プルーニングは、パフォーマンスを損なうことなく、リソース効率の高いトレーニングに有効な手段であることがわかった。
参考スコア（独自算出の注目度）: 13.814955569390207
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Wikipedia's perceived high quality and broad language coverage have established it as a fundamental resource in multilingual NLP. In the context of low-resource languages, however, these quality assumptions are increasingly being scrutinised. This paper critically examines the data quality of Wikipedia in a non-English setting by subjecting it to various quality filtering techniques, revealing widespread issues such as a high percentage of one-line articles and duplicate articles. We evaluate the downstream impact of quality filtering on Wikipedia and find that data quality pruning is an effective means for resource-efficient training without hurting performance, especially for low-resource languages. Moreover, we advocate for a shift in perspective from seeking a general definition of data quality towards a more language- and task-specific one. Ultimately, we aim for this study to serve as a guide to using Wikipedia for pretraining in a multilingual setting.
Abstract（参考訳）: ウィキペディアは高品質で幅広い言語をカバーしており、多言語NLPの基本的なリソースとして確立している。しかし、低リソース言語の文脈では、これらの品質仮定はますます精査されている。本論文は,ウィキペディアのデータ品質を,多種多様な品質フィルタリング手法に照らし合わせて,一行記事や重複記事の高率化などの広範な課題を明らかにすることによって,非英語環境におけるデータ品質を批判的に検証する。我々は、Wikipediaにおける品質フィルタリングの下流への影響を評価し、特に低リソース言語において、パフォーマンスを損なうことなく、データ品質の刈り取りが、リソース効率の高いトレーニングに有効な手段であることを見出した。さらに,データ品質の一般的な定義から,より言語やタスク固有の定義への転換を提唱する。最終的に,本研究は,多言語環境での事前学習にWikipediaを使用するためのガイドとして機能することを目指している。

関連論文リスト

Linguistic Nepotism: Trading-off Quality for Language Preference in Multilingual RAG [55.258582772528506]
異なる文書言語の混合が意図しない方法で生成と引用に影響を及ぼすかどうかを検討する。 8つの言語と6つのオープンウェイトモデルにまたがって、クエリが英語である場合、モデルは優先的に英語ソースを引用する。モデルが言語嗜好のトレードオフ文書関連性を示すことがあり、引用選択が情報のみによって常に駆動されるわけではないことが分かる。
論文参考訳（メタデータ） (2025-09-17T12:58:18Z)
Factual Inconsistencies in Multilingual Wikipedia Tables [5.395647076142643]
本研究はウィキペディアの構造化コンテンツにおける言語間不整合について検討する。ウィキペディアの多言語記事から表を収集・調整・分析する手法を開発した。これらの洞察は、事実検証、多言語知識の相互作用、信頼性の高いAIシステムの設計に影響を及ぼす。
論文参考訳（メタデータ） (2025-07-24T13:46:14Z)
SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-29T17:48:08Z)
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。 JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文参考訳（メタデータ） (2025-05-28T11:06:54Z)
On the effective transfer of knowledge from English to Hindi Wikipedia [4.427603894929721]
英語とヒンディー語の間の知識の共有性を高めるための軽量な枠組みを提案する。英語のウィキペディアページが最新でない場合、我々のフレームワークはウィキペディア特有のスタイルに適合するように適応します。本フレームワークは,ヒンディー語ウィキペディアのセクションに対して,自動的および人的判断に基づく評価に基づいて,ヒンディー語ウィキペディア記事の65%と62%を効果的に生成する。
論文参考訳（メタデータ） (2024-12-07T17:43:21Z)
Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages [0.19698344608599344]
ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。本フレームワークは,論文から抽出した言語に依存しない構造的特徴に基づく。既存のウィキペディアの言語バージョンにあるすべての記事の特徴値と品質スコアでデータセットを構築しました。
論文参考訳（メタデータ） (2024-04-15T13:07:31Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。 WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文参考訳（メタデータ） (2023-05-10T06:45:13Z)
XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文参考訳（メタデータ） (2023-03-22T04:52:43Z)
Mapping Process for the Task: Wikidata Statements to Text as Wikipedia Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文参考訳（メタデータ） (2022-10-23T08:34:33Z)
Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文参考訳（メタデータ） (2022-06-30T09:49:53Z)
Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文参考訳（メタデータ） (2022-01-25T17:20:04Z)
Assessing the quality of sources in Wikidata across languages: a hybrid approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文参考訳（メタデータ） (2021-09-20T10:06:46Z)
Language-agnostic Topic Classification for Wikipedia [1.950869817974852]
本稿では,論文をトピックの分類に分類するための記事のリンクに基づく言語に依存しないアプローチを提案する。言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
論文参考訳（メタデータ） (2021-02-26T22:17:50Z)
Multiple Texts as a Limiting Factor in Online Learning: Quantifying (Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文参考訳（メタデータ） (2020-08-05T11:11:55Z)
Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文参考訳（メタデータ） (2020-05-02T04:00:26Z)
Improving Candidate Generation for Low-resource Cross-lingual Entity Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文参考訳（メタデータ） (2020-03-03T05:32:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。