論文の概要: WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia
- arxiv url: http://arxiv.org/abs/2305.05928v1
- Date: Wed, 10 May 2023 06:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 14:06:38.222459
- Title: WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia
- Title(参考訳): WikiSQE: Wikipediaにおける文質評価のための大規模データセット
- Authors: Kenichiro Ando, Satoshi Sekine, Mamoru Komachi
- Abstract要約: ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文はウィキペディアの改訂履歴全体から抽出され、対象の品質ラベルを慎重に調査し、選択した。
WikiSQEでトレーニングされたモデルは、バニラモデルよりも優れた性能を示し、他のドメインでの有用性を示す。
- 参考スコア(独自算出の注目度): 17.83703560601813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikipedia can be edited by anyone and thus contains various quality
sentences. Therefore, Wikipedia includes some poor-quality edits, which are
often marked up by other editors. While editors' reviews enhance the
credibility of Wikipedia, it is hard to check all edited text. Assisting in
this process is very important, but a large and comprehensive dataset for
studying it does not currently exist. Here, we propose WikiSQE, the first
large-scale dataset for sentence quality estimation in Wikipedia. Each sentence
is extracted from the entire revision history of Wikipedia, and the target
quality labels were carefully investigated and selected. WikiSQE has about 3.4
M sentences with 153 quality labels. In the experiment with automatic
classification using competitive machine learning models, sentences that had
problems with citation, syntax/semantics, or propositions were found to be more
difficult to detect. In addition, we conducted automated essay scoring
experiments to evaluate the generalizability of the dataset. We show that the
models trained on WikiSQE perform better than the vanilla model, indicating its
potential usefulness in other domains. WikiSQE is expected to be a valuable
resource for other tasks in NLP.
- Abstract(参考訳): wikipediaは誰でも編集できるので、様々な質の高い文章が含まれている。
そのためウィキペディアには質の悪い編集がいくつか含まれており、しばしば他の編集者によってマークアップされる。
編集者のレビューはwikipediaの信頼性を高めるが、すべての編集されたテキストをチェックするのは難しい。
このプロセスを支援することは非常に重要であるが、研究のための大規模で包括的なデータセットは現存していない。
本稿では,ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文はウィキペディアの改訂履歴全体から抽出され、対象の品質ラベルを慎重に調査し、選択した。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
競合する機械学習モデルを用いた自動分類実験では、引用や構文・意味論、命題に問題がある文はより検出が難しいことが判明した。
さらに,データセットの一般化性を評価するためのエッセイ自動評価実験を行った。
WikiSQEでトレーニングされたモデルは、バニラモデルよりも優れた性能を示し、他のドメインでの有用性を示す。
WikiSQEはNLPの他のタスクにとって貴重なリソースであると期待されている。
関連論文リスト
- Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages [0.19698344608599344]
ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。
本フレームワークは,論文から抽出した言語に依存しない構造的特徴に基づく。
既存のウィキペディアの言語バージョンにあるすべての記事の特徴値と品質スコアでデータセットを構築しました。
論文 参考訳(メタデータ) (2024-04-15T13:07:31Z) - Edisum: Summarizing and Explaining Wikipedia Edits at Scale [9.968020416365757]
優れた編集要約を生成するために訓練された言語モデルにより生成された編集要約を推薦するモデルを提案する。
我々のモデルは人間の編集者と同等に機能する。
より広い範囲で、Web上で最大かつ最も目に見えるプロジェクトの1つを維持する上で、言語モデリング技術が人間をサポートする方法を紹介します。
論文 参考訳(メタデータ) (2024-04-04T13:15:28Z) - WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural
Language Instruction [56.196512595940334]
WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。
高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-08T04:46:39Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Measuring Wikipedia Article Quality in One Dimension by Extending ORES
with Ordinal Regression [1.52292571922932]
ウィキペディアにおける記事の品質評価は、ウィキペディアのコミュニティメンバーと学術研究者の両方で広く利用されている。
品質の測定は多くの方法論上の課題を提示します
最も広く使われているシステムは、品質を評価する際、個別の順序スケールでラベルを使用するが、統計学や機械学習には不便である。
論文 参考訳(メタデータ) (2021-08-15T23:05:28Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。