論文の概要: Automatic Quality Assessment of Wikipedia Articles -- A Systematic
Literature Review
- arxiv url: http://arxiv.org/abs/2310.02235v1
- Date: Tue, 3 Oct 2023 17:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 13:10:13.393962
- Title: Automatic Quality Assessment of Wikipedia Articles -- A Systematic
Literature Review
- Title(参考訳): wikipediaの記事の自動品質評価 -体系的文献レビュー-
- Authors: Pedro Miguel Mo\'as, Carla Teixeira Lopes
- Abstract要約: ウィキペディアの記事の質を自動的に測定する既存の手法についてレビューする。
機械学習アルゴリズム、記事の特徴、品質指標、使用済みデータセットを特定し比較する。
私たちの分析が将来の研究者の現実を変えるのに役立つことを願っています。
- 参考スコア(独自算出の注目度): 0.8158530638728501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikipedia is the world's largest online encyclopedia, but maintaining article
quality through collaboration is challenging. Wikipedia designed a quality
scale, but with such a manual assessment process, many articles remain
unassessed. We review existing methods for automatically measuring the quality
of Wikipedia articles, identifying and comparing machine learning algorithms,
article features, quality metrics, and used datasets, examining 149 distinct
studies, and exploring commonalities and gaps in them. The literature is
extensive, and the approaches follow past technological trends. However,
machine learning is still not widely used by Wikipedia, and we hope that our
analysis helps future researchers change that reality.
- Abstract(参考訳): Wikipediaは世界最大のオンライン百科事典だが、コラボレーションによる記事の品質維持は難しい。
Wikipediaは品質尺度を設計したが、このような手作業による評価プロセスにより、多くの記事が未評価のままである。
既存のwikipedia記事の品質を自動的に測定する方法、機械学習アルゴリズム、記事の特徴、品質指標、使用済みデータセットを識別・比較し、149の異なる研究を検証し、それらの共通点とギャップを探索する。
文学は広く、そのアプローチは過去の技術動向に従っている。
しかし、機械学習はまだウィキペディアで広く使われておらず、我々の分析が将来の研究者の現実を変える助けになることを願っています。
関連論文リスト
- REVERSUM: A Multi-staged Retrieval-Augmented Generation Method to Enhance Wikipedia Tail Biographies through Personal Narratives [4.427603894929721]
本研究は,ウィキペディアのBとCカテゴリの伝記記事を強化するための新しいアプローチを提案する。
複数段階の検索拡張生成手法を用いて、より知られていない記事の情報内容の充実を図る。
論文 参考訳(メタデータ) (2025-02-17T18:53:42Z) - How Good is Your Wikipedia? [13.814955569390207]
本稿では,ウィキペディアのデータ品質を,様々な品質フィルタリング手法を応用して,非英語環境におけるデータ品質を批判的に検証する。
データ品質プルーニングは、パフォーマンスを損なうことなく、リソース効率の高いトレーニングに有効な手段であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T12:35:58Z) - Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages [0.19698344608599344]
ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。
本フレームワークは,論文から抽出した言語に依存しない構造的特徴に基づく。
既存のウィキペディアの言語バージョンにあるすべての記事の特徴値と品質スコアでデータセットを構築しました。
論文 参考訳(メタデータ) (2024-04-15T13:07:31Z) - WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文 参考訳(メタデータ) (2023-05-10T06:45:13Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Measuring Wikipedia Article Quality in One Dimension by Extending ORES
with Ordinal Regression [1.52292571922932]
ウィキペディアにおける記事の品質評価は、ウィキペディアのコミュニティメンバーと学術研究者の両方で広く利用されている。
品質の測定は多くの方法論上の課題を提示します
最も広く使われているシステムは、品質を評価する際、個別の順序スケールでラベルを使用するが、統計学や機械学習には不便である。
論文 参考訳(メタデータ) (2021-08-15T23:05:28Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。