論文の概要: How Sovereign Is Sovereign Compute? A Review of 775 Non-U.S. Data Centers
- arxiv url: http://arxiv.org/abs/2508.00932v1
- Date: Wed, 30 Jul 2025 22:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 14:36:15.147758
- Title: How Sovereign Is Sovereign Compute? A Review of 775 Non-U.S. Data Centers
- Title(参考訳): ソブリンのコンピューティングはどんなものか? 合衆国以外の775のデータセンターを振り返る
- Authors: Aris Richardson, Haley Yi, Michelle Nie, Simon Wisdom, Casey Price, Ruben Weijers, Steven Veld, Mauricio Baker,
- Abstract要約: 本稿は、データセンター運営者の国籍のため、データセンターが外国の法当局の対象になる頻度を見積もる。
米国企業は、投資価値によって重み付けされた場合、データセットで米国以外のすべてのデータセンタープロジェクトの48%を運用しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous literature has proposed that the companies operating data centers enforce government regulations on AI companies. Using a new dataset of 775 non-U.S. data center projects, this paper estimates how often data centers could be subject to foreign legal authorities due to the nationality of the data center operators. We find that U.S. companies operate 48% of all non-U.S. data center projects in our dataset when weighted by investment value - a proxy for compute capacity. This is an approximation based on public data and should be interpreted as an initial estimate. For the United States, our findings suggest that data center operators offer a lever for internationally governing AI that complements traditional export controls, since operators can be used to regulate computing resources already deployed in non-U.S. data centers. For other countries, our results show that building data centers locally does not guarantee digital sovereignty if those facilities are run by foreign entities. To support future research, we release our dataset, which documents over 20 variables relating to each data center, including the year it was announced, the investment value, and its operator's national affiliation. The dataset also includes over 1,000 quotes describing these data centers' strategic motivations, operational challenges, and engagement with U.S. and Chinese entities.
- Abstract(参考訳): 以前の文献では、データセンターを運営する企業はAI企業に対する政府の規制を強制していると提案されている。
本稿では、米国以外の775のデータセンタープロジェクトを対象とした新たなデータセットを用いて、データセンター運営者の国籍のため、データセンターが外国の法的当局の対象になる頻度を見積もる。
米国企業は、投資価値、すなわち計算能力のプロキシによって重み付けされた場合、データセットで米国以外のすべてのデータセンタープロジェクトの48%を運用しています。
これは公開データに基づく近似であり、初期推定として解釈されるべきである。
米国では、データセンター運用者が、従来型の輸出規制を補完するAIを国際的に管理するためのレバーを提供していることを示唆しています。
他の国では、これらの施設が外国の機関によって運営されている場合、データセンターをローカルに構築しても、デジタル主権は保証されない。
今後の研究を支援するため、発表年、投資価値、運用者の国家提携など、各データセンタに関連する20以上の変数を文書化するデータセットをリリースする。
データセットには、これらのデータセンタの戦略的モチベーション、運用上の課題、米国と中国のエンティティとの関与を説明する1,000以上の引用も含まれている。
関連論文リスト
- Real-World En Call Center Transcripts Dataset with PII Redaction [0.8077903172320928]
CallCenterENは、大規模な(91,706の会話で、10448のオーディオ時間に対応する)実世界の英語コールセンターのトランスクリプトデータセットである。
これは、この種のオープンソースコールセンタの書き起こしデータとしては、これまでで最大のリリースである。
データセットには、インド、フィリピン、米国からのアクセントとともに、エージェントと顧客の間のインバウンドおよびアウトバウンドコールが含まれている。
論文 参考訳(メタデータ) (2025-06-30T03:41:02Z) - Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - Future and AI-Ready Data Strategies: Response to DOC RFI on AI and Open Government Data Assets [6.659894897434807]
以下は、AIとOpen Government Data Assetsに関する米国商務省の情報要求(RFI)に対する回答である。
当社は、組織やデータの共有に関する公的洞察を求める取り組みについて、省に感謝する。
弊社の回答では、AIと商務省のOpen Government Data Assetsに対するベストプラクティスと重要な考察を概説する。
論文 参考訳(メタデータ) (2024-07-26T07:31:32Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - DAVED: Data Acquisition via Experimental Design for Data Markets [25.300193837833426]
本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
論文 参考訳(メタデータ) (2024-03-20T18:05:52Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Compute at Scale: A Broad Investigation into the Data Center Industry [0.8547032097715571]
グローバル産業の評価額は約250億ドルで、今後7年間で倍増する見込みだ。
米国、ヨーロッパ、中国が最も重要な市場を構成しているため、全世界に約500カ所(約10MW)のデータセンターがある可能性が高い。
論文 参考訳(メタデータ) (2023-11-05T13:39:59Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z) - Data Governance in the Age of Large-Scale Data-Driven Language
Technology [79.92626780294258]
この研究は、利害関係者、価値観、権利間のデータ管理を組織化しようとする、グローバル言語データガバナンスへのアプローチを提案する。
現在提案するフレームワークは、言語データに焦点を当てた多政党の国際ガバナンス構造であり、その作業を支援するために必要な技術および組織ツールを取り入れています。
論文 参考訳(メタデータ) (2022-05-04T00:44:35Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。