論文の概要: A Test of Time: Predicting the Sustainable Success of Online Collaboration in Wikipedia
- arxiv url: http://arxiv.org/abs/2410.19150v1
- Date: Thu, 24 Oct 2024 20:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:04.128704
- Title: A Test of Time: Predicting the Sustainable Success of Online Collaboration in Wikipedia
- Title(参考訳): テスト・オブ・タイム:ウィキペディアにおけるオンラインコラボレーションの持続可能な成功を予測する
- Authors: Abraham Israeli, David Jurgens, Daniel Romero,
- Abstract要約: 我々は,ウィキペディア記事の持続可能な成功を予測するために,機械学習モデルを開発した。
記事が高品質であると認識されるのに時間がかかるほど、時間とともにそのステータスを維持する可能性が高くなる。
我々の分析はウィキペディア以外の幅広い集団的行動に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 17.051622145253855
- License:
- Abstract: The Internet has significantly expanded the potential for global collaboration, allowing millions of users to contribute to collective projects like Wikipedia. While prior work has assessed the success of online collaborations, most approaches are time-agnostic, evaluating success without considering its longevity. Research on the factors that ensure the long-term preservation of high-quality standards in online collaboration is scarce. In this study, we address this gap. We propose a novel metric, `Sustainable Success,' which measures the ability of collaborative efforts to maintain their quality over time. Using Wikipedia as a case study, we introduce the SustainPedia dataset, which compiles data from over 40K Wikipedia articles, including each article's sustainable success label and more than 300 explanatory features such as edit history, user experience, and team composition. Using this dataset, we develop machine learning models to predict the sustainable success of Wikipedia articles. Our best-performing model achieves a high AU-ROC score of 0.88 on average. Our analysis reveals important insights. For example, we find that the longer an article takes to be recognized as high-quality, the more likely it is to maintain that status over time (i.e., be sustainable). Additionally, user experience emerged as the most critical predictor of sustainability. Our analysis provides insights into broader collective actions beyond Wikipedia (e.g., online activism, crowdsourced open-source software), where the same social dynamics that drive success on Wikipedia might play a role. We make all data and code used for this study publicly available for further research.
- Abstract(参考訳): インターネットはグローバルなコラボレーションの可能性を大きく拡大し、何百万人ものユーザーがWikipediaのような総合プロジェクトへの貢献を可能にした。
先行研究はオンラインコラボレーションの成功を評価してきたが、ほとんどのアプローチは時間に依存しず、その長寿を考慮せずに成功を評価する。
オンラインコラボレーションにおける高品質な標準の長期保存を確保する要因についての研究は少ない。
本研究では,このギャップに対処する。
本稿では,持続的成功(Sustainable Success)という新たな指標を提案する。
このデータセットは、ウィキペディアの持続的な成功ラベルや、編集履歴、ユーザエクスペリエンス、チーム構成など300以上の説明機能を含む40万以上のウィキペディアの記事からデータをコンパイルする。
このデータセットを用いて,ウィキペディア記事の持続可能な成功を予測する機械学習モデルを開発した。
我々の最高性能モデルは平均0.88のAU-ROCスコアを達成する。
私たちの分析では重要な洞察が浮かび上がっています。
例えば、記事が高品質であると認識されるのに時間がかかるほど、そのステータスを長く維持する可能性が高くなる(すなわち、持続可能)。
さらに、ユーザエクスペリエンスは、サステナビリティの最も重要な予測要因として現れました。
私たちの分析は、ウィキペディア以外の幅広い集団的行動(オンラインアクティビズム、クラウドソースされたオープンソースソフトウェアなど)に関する洞察を提供する。
この研究に使用されるすべてのデータとコードは、さらなる研究のために公開されています。
関連論文リスト
- HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits [92.62157408704594]
HelloFreshは、本質的に動機づけられた人間のラベルによって生成された実世界のデータの連続的なストリームに基づいている。
ウィキペディアページのX(元Twitter)コミュニティノートと編集の最近のイベントをカバーしている。
テストデータの汚染とベンチマークオーバーフィッティングのリスクを軽減します。
論文 参考訳(メタデータ) (2024-06-05T16:25:57Z) - Automatic Quality Assessment of Wikipedia Articles -- A Systematic
Literature Review [0.8158530638728501]
ウィキペディアの記事の質を自動的に測定する既存の手法についてレビューする。
機械学習アルゴリズム、記事の特徴、品質指標、使用済みデータセットを特定し比較する。
私たちの分析が将来の研究者の現実を変えるのに役立つことを願っています。
論文 参考訳(メタデータ) (2023-10-03T17:45:39Z) - Publishing Wikipedia usage data with strong privacy guarantees [6.410779699541235]
約20年間、ウィキメディア財団はウィキペディアの各ページを毎日何人訪問したかという統計を公表してきた。
2023年6月、ウィキメディア財団はこれらの統計データをより細かい粒度で公開し始めた。
本稿では、このデータ公開について、その目標、プロセスの展開開始とデータリリースの結果について述べる。
論文 参考訳(メタデータ) (2023-08-30T19:58:56Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Measuring Wikipedia Article Quality in One Dimension by Extending ORES
with Ordinal Regression [1.52292571922932]
ウィキペディアにおける記事の品質評価は、ウィキペディアのコミュニティメンバーと学術研究者の両方で広く利用されている。
品質の測定は多くの方法論上の課題を提示します
最も広く使われているシステムは、品質を評価する際、個別の順序スケールでラベルを使用するが、統計学や機械学習には不便である。
論文 参考訳(メタデータ) (2021-08-15T23:05:28Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - Tracking Knowledge Propagation Across Wikipedia Languages [1.8447697408534176]
本稿では,ウィキペディアにおける言語間知識伝達のデータセットについて述べる。
データセットは309の言語版と3300万の記事をカバーしている。
言語版のサイズは伝播速度と関連していることがわかった。
論文 参考訳(メタデータ) (2021-03-30T18:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。