論文の概要: How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI
- arxiv url: http://arxiv.org/abs/2602.00056v1
- Date: Tue, 20 Jan 2026 00:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.282852
- Title: How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI
- Title(参考訳): ハイパーデータフィケーションがフロンティアAIの持続可能性コストにどのように影響するか
- Authors: Sophia N. Wilson, Sebastian Mair, Mophat Okinyi, Erik B. Dam, Janin Koch, Raghavendra Selvan,
- Abstract要約: 本研究では、サステナビリティレンズを用いて、AIにおける大規模データの環境、社会的、経済的コストについて検討する。
Hugging Face Hubから約550,000のデータセットを分析します。
我々は、実績、資源意識、所有権、オープン性、虚偽性、標準にまたがるData PROOFSレコメンデーションを提案する。
- 参考スコア(独自算出の注目度): 7.995068383762489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale data has fuelled the success of frontier artificial intelligence (AI) models over the past decade. This expansion has relied on sustained efforts by large technology corporations to aggregate and curate internet-scale datasets. In this work, we examine the environmental, social, and economic costs of large-scale data in AI through a sustainability lens. We argue that the field is shifting from building models from data to actively creating data for building models. We characterise this transition as hyper-datafication, which marks a critical juncture for the future of frontier AI and its societal impacts. To quantify and contextualise data-related costs, we analyse approximately 550,000 datasets from the Hugging Face Hub, focusing on dataset growth, storage-related energy consumption and carbon footprint, and societal representation using language data. We complement this analysis with qualitative responses from data workers in Kenya to examine the labour involved, including direct employment by big tech corporations and exposure to graphic content. We further draw on external data sources to substantiate our findings by illustrating the global disparity in data centre infrastructure. Our analyses reveal that hyper-datafication does not merely increase resource consumption but systematically redistributes environmental burdens, labour risks, and representational harms toward the Global South, precarious data workers, and under-represented cultures. Thus, we propose Data PROOFS recommendations spanning provenance, resource awareness, ownership, openness, frugality, and standards to mitigate these costs. Our work aims to make visible the often-overlooked costs of data that underpin frontier AI and to stimulate broader debate within the research community and beyond.
- Abstract(参考訳): 大規模なデータにより、過去10年間でフロンティア人工知能(AI)モデルの成功が加速した。
この拡張は、インターネット規模のデータセットを集約し、キュレートするための、大企業による継続的な努力に依存している。
本研究では、サステナビリティレンズを用いて、AIにおける大規模データの環境、社会的、経済的コストについて検討する。
この分野は、データ構築からモデル構築のためのデータ作成へと移行しつつある、と私たちは主張する。
我々は、この移行を、フロンティアAIの将来とその社会的影響にとって重要な分岐点であるハイパーデータフィケーションとして特徴づける。
データ関連のコストを定量化し、文脈的に分析するために、Hugging Face Hubから約550,000のデータセットを分析し、データセットの成長、ストレージ関連のエネルギー消費と炭素フットプリント、言語データを用いた社会的表現に焦点を当てた。
この分析をケニアのデータワーカーからの質的な回答で補完し、大企業の直接雇用やグラフィックコンテンツへの露出など、関係する労力を調べる。
さらに、データセンターのインフラにおけるグローバルな格差を例示することにより、外部データソースを活用して、私たちの発見を裏付けます。
分析の結果,過データ化は資源消費を増加させるだけでなく,環境負荷,労働リスク,グローバル・サウスへの表現的被害,先進的なデータ・ワーカー,過度に表現されていない文化を体系的に再分配することがわかった。
そこで本稿では,これらのコストを軽減するために,実績,資源意識,所有権,オープン性,虚偽性,標準にまたがるData PROOFSレコメンデーションを提案する。
私たちの研究は、フロンティアAIの基盤となる、見落とされがちなデータコストを可視化し、研究コミュニティやそれ以上の幅広い議論を刺激することを目的としています。
関連論文リスト
- A Sustainable AI Economy Needs Data Deals That Work for Generators [56.949279542190084]
機械学習のバリューチェーンは、経済的なデータ処理の不平等のため、構造的に持続不可能である、と我々は主張する。
73の公開データ取引を分析し、アグリゲータに価値の大部分が蓄積されていることを示す。
参加者全員に利益をもたらす最小市場を実現するために、等価なData-Value Exchange Frameworkを提案する。
論文 参考訳(メタデータ) (2026-01-15T01:05:48Z) - The Cloud Next Door: Investigating the Environmental and Socioeconomic Strain of Datacenters on Local Communities [0.5025737475817937]
データセンターは現代のデジタルインフラのバックボーンとなっている。
この拡張は、データセンターがすでに存在するか、提案されている地域社会で緊張が高まっている。
私たちの目標は、これらの影響を可視化し、デジタルインフラストラクチャの将来について、より公平でインフォームドな決定を促すことです。
論文 参考訳(メタデータ) (2025-06-03T20:21:53Z) - Data Issues in Industrial AI System: A Meta-Review and Research Strategy [10.540603300770885]
人工知能(AI)は、産業システムにおいてますます重要な役割を担っている。
近年、さまざまな業界でAIを採用する傾向にあるが、実際のAIの採用は認識されるほど発展していない。
これらのデータ問題にどのように対処するかは、業界と学術の両方に直面する重要な懸念事項である。
論文 参考訳(メタデータ) (2024-06-22T08:36:59Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - Transforming Agriculture with Intelligent Data Management and Insights [3.027257459810039]
現代の農業は、気候変動と天然資源の枯渇の制約の下で、食料、燃料、飼料、繊維の需要の増加に対応するための大きな課題に直面している。
データ革新は、アグロエコシステムの生産性、持続可能性、レジリエンスの確保と改善に緊急に必要です。
論文 参考訳(メタデータ) (2023-11-07T22:02:54Z) - The Dimensions of Data Labor: A Road Map for Researchers, Activists, and
Policymakers to Empower Data Producers [14.392208044851976]
データプロデューサは、取得したデータ、使用方法、あるいはそのメリットについてはほとんど言及していません。
このデータにアクセスし、処理する能力を持つ組織、例えばOpenAIやGoogleは、テクノロジーのランドスケープを形成する上で大きな力を持っている。
研究者,政策立案者,活動家がデータ生産者に力を与える機会を概説する。
論文 参考訳(メタデータ) (2023-05-22T17:11:22Z) - Data-centric AI: Perspectives and Challenges [51.70828802140165]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。
データ開発、推論データ開発、データメンテナンスの3つの一般的なミッションをまとめます。
論文 参考訳(メタデータ) (2023-01-12T05:28:59Z) - From Data to Knowledge to Action: A Global Enabler for the 21st Century [26.32590947516587]
コンピュータと数理科学の進歩が相まって、真の証拠に基づく意思決定を可能にする前例のない能力がもたらされた。
これらの機能は、データの大規模なキャプチャと、そのデータの洞察とレコメンデーションへの変換を可能にする。
商業、科学、教育、芸術、エンターテイメントのWebへの移行により、人間の活動に関する構造化された、非構造化されたデータベースが、これまで例のない量で利用可能になった。
論文 参考訳(メタデータ) (2020-07-31T19:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。