Fugu-MT 論文翻訳(概要): Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia

論文の概要: Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia

arxiv url: http://arxiv.org/abs/2402.14147v1
Date: Wed, 21 Feb 2024 22:10:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 17:15:33.489858
Title: Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia
Title（参考訳）: Wikibench: WikipediaによるAI評価のためのコミュニティ駆動のデータキュレーション
Authors: Tzu-Sheng Kuo, Aaron Halfaker, Zirui Cheng, Jiwoo Kim, Meng-Hsin Wu, Tongshuang Wu, Kenneth Holstein, Haiyi Zhu
Abstract要約: ウィキベンチは,コミュニティが協調してAI評価データセットをキュレートすることを可能にするシステムである。 Wikipediaのフィールドスタディによると、Wikibenchを使ってキュレートされたデータセットは、コミュニティのコンセンサス、不一致、不確実性を効果的に捉えることができる。
参考スコア（独自算出の注目度）: 39.02973945237259
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: AI tools are increasingly deployed in community contexts. However, datasets used to evaluate AI are typically created by developers and annotators outside a given community, which can yield misleading conclusions about AI performance. How might we empower communities to drive the intentional design and curation of evaluation datasets for AI that impacts them? We investigate this question on Wikipedia, an online community with multiple AI-based content moderation tools deployed. We introduce Wikibench, a system that enables communities to collaboratively curate AI evaluation datasets, while navigating ambiguities and differences in perspective through discussion. A field study on Wikipedia shows that datasets curated using Wikibench can effectively capture community consensus, disagreement, and uncertainty. Furthermore, study participants used Wikibench to shape the overall data curation process, including refining label definitions, determining data inclusion criteria, and authoring data statements. Based on our findings, we propose future directions for systems that support community-driven data curation.
Abstract（参考訳）: AIツールは、コミュニティのコンテキストにますますデプロイされる。しかしながら、AIを評価するために使用されるデータセットは、通常、所定のコミュニティ外の開発者やアノテータによって作成されます。コミュニティに、それに影響を与えるAIの評価データセットを意図的に設計し、キュレーションする権限を与えるにはどうすればよいのか? この質問は、複数のAIベースのコンテンツモデレーションツールをデプロイしたオンラインコミュニティであるWikipediaで調査する。議論を通じてあいまいさや視点の違いをナビゲートしながら、コミュニティが共同でai評価データセットをキュレートできるシステムwikibenchを紹介する。 Wikipediaのフィールドスタディによると、Wikibenchを使ってキュレートされたデータセットは、コミュニティのコンセンサス、不一致、不確実性を効果的に捉えることができる。さらに、研究参加者はWikibenchを使用して、ラベル定義の精細化、データ含意基準の決定、データステートメントのオーサリングなど、データキュレーションの全体を形成する。そこで本研究では,コミュニティ主導のデータキュレーションを支援するシステムの今後の方向性を提案する。

関連論文リスト

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles [56.724847946825285]
Wiki Live Challenge (WLC)は、最新のWikipedia Good Articles(GA)をエキスパートレベルの参照として活用する、ライブベンチマークである。 Wiki Evalは, 品質基準39の細粒度評価手法と, 事実検証性のための厳密な指標を含む総合的な評価フレームワークである。
論文参考訳（メタデータ） (2026-02-02T03:30:13Z)
Conscious Data Contribution via Community-Driven Chain-of-Thought Distillation [4.275696286826178]
LLMにおけるデータポータビリティとユーザ自律性に関する疑問を「理性」という文脈で考察する。利用可能なモデルから低ユーティリティを受信したコミュニティが、自分たちの共有した知識を、目標に沿った代替モデルに集約し、蒸留する方法を示します。
論文参考訳（メタデータ） (2025-12-20T02:17:18Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
Cooperative learning of Pl@ntNet's Artificial Intelligence algorithm: how does it work and how can we improve it? [10.552000450161698]
PlantNetは、植物観察をアップロードし、注釈付けすることで、グローバルなデータ収集を可能にする。合意を得ることはトレーニングには不可欠だが、収集された膨大なデータによって、従来のラベルアグリゲーション戦略が困難になる。当社の戦略は,クラウドソースデータから植物種を識別する能力に基づいて,ユーザ毎の信頼スコアとしてユーザ専門性を推定する。ユーザの知識の多様性に基づいて,ユーザのスキルを推定することで,ラベル付け性能が向上することが実証された。
論文参考訳（メタデータ） (2024-06-05T15:12:29Z)
Simulation, Modelling and Classification of Wiki Contributors: Spotting The Good, The Bad, and The Ugly [3.206001698115526]
本稿では,人間と非人間(ロボット)のコントリビュータを自動的に識別するためのシミュレーション,モデリング,分類手法を提案する。私たちは、テストベッドとしてWikiVoyageという、世界中の無料のウィキ旅行ガイドを一般大衆から寄付を受けられるようにしています。以上の結果から,本手法は良性ボットと良性ボットと,最大92%の分類精度を持つヒトコントリビュータを区別できることがわかった。
論文参考訳（メタデータ） (2024-05-29T07:56:08Z)
Data Readiness for AI: A 360-Degree Survey [0.9343816282846432]
粗悪な品質データは不正確で非効率なAIモデルを生成する。データ品質の改善に多くの研究開発努力が費やされている。本稿では、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案する。
論文参考訳（メタデータ） (2024-04-08T15:19:57Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文参考訳（メタデータ） (2023-07-05T15:32:21Z)
Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文参考訳（メタデータ） (2023-03-17T17:44:56Z)
Wiki-based Communities of Interest: Demographics and Outliers [18.953455338226103]
Wikiの情報源によると、このデータはホワイトハウスコロナウイルスタスクフォースのメンバーなど7.5万のコミュニティをカバーしている。主観的およびグループ中心のデータセットをフォーマットで、またブラウジングインターフェースとしてリリースします。
論文参考訳（メタデータ） (2023-03-16T09:58:11Z)
Knowledge Graph Question Answering Leaderboard: A Community Resource to Prevent a Replication Crisis [61.740077541531726]
コミュニティの焦点として、KGQAベンチマークデータセットに対して、新たな中心的でオープンなリーダボードを提供しています。本分析は,KGQAシステムの評価において,既存の問題点を浮き彫りにする。
論文参考訳（メタデータ） (2022-01-20T13:46:01Z)
Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。各テストサンプルは、トレーニングセットの支持データで予測可能である。実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文参考訳（メタデータ） (2021-08-03T09:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。