論文の概要: Measuring Wikipedia Article Quality in One Dimension by Extending ORES
with Ordinal Regression
- arxiv url: http://arxiv.org/abs/2108.10684v1
- Date: Sun, 15 Aug 2021 23:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 13:42:48.460850
- Title: Measuring Wikipedia Article Quality in One Dimension by Extending ORES
with Ordinal Regression
- Title(参考訳): 正規回帰によるORESの拡張による1次元ウィキペディア記事の品質測定
- Authors: Nathan TeBlunthuis
- Abstract要約: ウィキペディアにおける記事の品質評価は、ウィキペディアのコミュニティメンバーと学術研究者の両方で広く利用されている。
品質の測定は多くの方法論上の課題を提示します
最も広く使われているシステムは、品質を評価する際、個別の順序スケールでラベルを使用するが、統計学や機械学習には不便である。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizing complex peer production projects and advancing scientific
knowledge of open collaboration each depend on the ability to measure quality.
Article quality ratings on English language Wikipedia have been widely used by
both Wikipedia community members and academic researchers for purposes like
tracking knowledge gaps and studying how political polarization shapes
collaboration. Even so, measuring quality presents many methodological
challenges. The most widely used systems use labels on discrete ordinal scales
when assessing quality, but such labels can be inconvenient for statistics and
machine learning. Prior work handles this by assuming that different levels of
quality are "evenly spaced" from one another. This assumption runs counter to
intuitions about the relative degrees of effort needed to raise Wikipedia
encyclopedia articles to different quality levels. Furthermore, models from
prior work are fit to datasets that oversample high-quality articles. This
limits their accuracy for representative samples of articles or revisions. I
describe a technique extending the Wikimedia Foundations' ORES article quality
model to address these limitations. My method uses weighted ordinal regression
models to construct one-dimensional continuous measures of quality. While
scores from my technique and from prior approaches are correlated, my approach
improves accuracy for research datasets and provides evidence that the "evenly
spaced" assumption is unfounded in practice on English Wikipedia. I conclude
with recommendations for using quality scores in future research and include
the full code, data, and models.
- Abstract(参考訳): 複雑な相互生産プロジェクトの編成とオープンコラボレーションの科学的知識の進歩は、それぞれ品質を測定する能力に依存する。
ウィキペディアにおける記事の品質評価は、知識ギャップの追跡や、政治的分極化がコラボレーションをどう形作るかを研究するために、ウィキペディアのコミュニティメンバーと学術研究者の両方によって広く利用されている。
それでも品質の測定には多くの方法論上の課題がある。
最も広く使われているシステムは、品質を評価する際に個別の順序スケールでラベルを使用するが、統計学や機械学習には不便である。
先行作業は、異なるレベルの品質が互いに「均等に間隔」にあると仮定することでこれを処理します。
この仮定はウィキペディア百科事典の記事を異なる品質レベルに上げるのに必要な相対的な労力に関する直感に反する。
さらに、先行作業のモデルは、高品質な記事をオーバーサンプリングするデータセットに適合する。
これにより、記事やリビジョンの代表的サンプルの精度が制限される。
Wikimedia FoundationsのORES記事の品質モデルを拡張し、これらの制限に対処する手法について説明する。
重み付き順序回帰モデルを用いて品質の1次元連続測度を構築する。
私の手法と先行アプローチのスコアは相関するが、私の手法は研究データセットの精度を向上し、英語のウィキペディアで実際に「均一な」仮定が確立されていないことを示す。
私は、将来の研究で品質スコアを使うことを推奨し、完全なコード、データ、モデルを含めます。
関連論文リスト
- "All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations [0.0]
「金」と「地底真理」のラベルには誤りがある。
本研究では、専門家による極めて低い信頼性の文脈においても、そのような疑問に答える方法を示す。
論文 参考訳(メタデータ) (2024-11-23T19:18:08Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - Automatic Quality Assessment of Wikipedia Articles -- A Systematic
Literature Review [0.8158530638728501]
ウィキペディアの記事の質を自動的に測定する既存の手法についてレビューする。
機械学習アルゴリズム、記事の特徴、品質指標、使用済みデータセットを特定し比較する。
私たちの分析が将来の研究者の現実を変えるのに役立つことを願っています。
論文 参考訳(メタデータ) (2023-10-03T17:45:39Z) - Data Quality in Imitation Learning [15.939363481618738]
ロボット工学のオフライン学習では、インターネットのスケールデータがないだけで、高品質なデータセットが必要なのです。
これは特に、専門家によるデモンストレーションを用いたロボット学習のためのサンプル効率のよいパラダイムである模倣学習(IL)において当てはまる。
本研究では,分散シフトのレンズによる模倣学習のためのデータ品質の形式化に向けた第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-06-04T18:48:32Z) - WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文 参考訳(メタデータ) (2023-05-10T06:45:13Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Are Missing Links Predictable? An Inferential Benchmark for Knowledge
Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。
各テストサンプルは、トレーニングセットの支持データで予測可能である。
実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (2021-08-03T09:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。