論文の概要: Economics of Sourcing Human Data
- arxiv url: http://arxiv.org/abs/2502.07732v1
- Date: Tue, 11 Feb 2025 17:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:58.810470
- Title: Economics of Sourcing Human Data
- Title(参考訳): 人的データ収集の経済学
- Authors: Sebastin Santy, Prasanta Bhattacharya, Manoel Horta Ribeiro, Kelsey Allen, Sewoong Oh,
- Abstract要約: 大規模言語モデルの普及は、人間の生成したデータの質と整合性を脅かすと論じる。
既存のデータ収集システムは、本質的な人間のモチベーションを犠牲にして、スピード、スケール、効率を優先する。
コントリビュータの本質的なモチベーションに合わせて,データ収集システムを再考することを提案する。
- 参考スコア(独自算出の注目度): 27.26816810619047
- License:
- Abstract: Progress in AI has relied on human-generated data, from annotator marketplaces to the wider Internet. However, the widespread use of large language models now threatens the quality and integrity of human-generated data on these very platforms. We argue that this issue goes beyond the immediate challenge of filtering AI-generated content--it reveals deeper flaws in how data collection systems are designed. Existing systems often prioritize speed, scale, and efficiency at the cost of intrinsic human motivation, leading to declining engagement and data quality. We propose that rethinking data collection systems to align with contributors' intrinsic motivations--rather than relying solely on external incentives--can help sustain high-quality data sourcing at scale while maintaining contributor trust and long-term participation.
- Abstract(参考訳): AIの進歩は、アノテータマーケットプレースからより広いインターネットに至るまで、人為的なデータに依存してきた。
しかし、大規模言語モデルの普及により、これらのプラットフォーム上での人間生成データの品質と完全性は脅かされている。
我々は、この問題は、AI生成コンテンツのフィルタリングという直接的な課題を越えており、既存のシステムは、本質的な人間のモチベーションを犠牲にして、スピード、スケール、効率を優先し、エンゲージメントとデータ品質を低下させる。我々は、データ収集システムを、外部インセンティブにのみ依存するのではなく、コントリビュータの本質的なモチベーションに合わせて再考することを提案する。これは、コントリビュータの信頼と長期的な参加を維持しながら、大規模における高品質なデータソーシングの維持に役立つ。
関連論文リスト
- Data and System Perspectives of Sustainable Artificial Intelligence [43.21672481390316]
持続可能なAIは、環境への影響を減らし、持続可能性を達成することを目的としたAIのサブフィールドである。
本稿では、これらの問題に対処するための現在の課題、機会、例題ソリューションについて論じる。
論文 参考訳(メタデータ) (2025-01-13T17:04:23Z) - Data Quality Awareness: A Journey from Traditional Data Management to Data Science Systems [9.490118207943196]
本稿では、従来のデータ管理システムから現代のデータ駆動型AIシステムへのデータ品質意識の進化についてレビューする。
データサイエンスシステムは幅広い活動をサポートするため、本論文の焦点は機械学習によって引き起こされる分析的側面に特化している。
論文 参考訳(メタデータ) (2024-11-05T11:12:25Z) - Generative AI for Secure and Privacy-Preserving Mobile Crowdsensing [74.58071278710896]
生成AIは、学術分野と産業分野の両方から多くの注目を集めている。
セキュアでプライバシ保護のモバイルクラウドセンシング(SPPMCS)は、データ収集/取得に広く応用されている。
論文 参考訳(メタデータ) (2024-05-17T04:00:58Z) - When AI Eats Itself: On the Caveats of AI Autophagy [18.641925577551557]
AIオートファジー現象は、生成的AIシステムが認識せずに自分たちのアウトプットを消費する未来を示唆している。
本研究では、既存の文献を調査し、AIオートファジーの結果を掘り下げ、関連するリスクを分析し、その影響を軽減するための戦略を探求する。
論文 参考訳(メタデータ) (2024-05-15T13:50:23Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Data-centric AI: Perspectives and Challenges [51.70828802140165]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。
データ開発、推論データ開発、データメンテナンスの3つの一般的なミッションをまとめます。
論文 参考訳(メタデータ) (2023-01-12T05:28:59Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。