論文の概要: Sell Data to AI Algorithms Without Revealing It: Secure Data Valuation and Sharing via Homomorphic Encryption
- arxiv url: http://arxiv.org/abs/2512.06033v1
- Date: Thu, 04 Dec 2025 16:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.159508
- Title: Sell Data to AI Algorithms Without Revealing It: Secure Data Valuation and Sharing via Homomorphic Encryption
- Title(参考訳): AIアルゴリズムにデータを公開せずに販売する - 同型暗号化によるセキュアなデータ評価と共有
- Authors: Michael Yang, Ruijiang Gao, Zhiqiang, Zheng,
- Abstract要約: 原資産を復号することなく外部データの有用性を定量化するための,プライバシ保護フレームワークであるTrustworthy Influence Protocol(TIP)を導入する。
均質暗号化と勾配に基づく影響関数を統合することで、当社のアプローチは、購入者の特定のAIモデルに対して、正確で盲目なデータポイントのスコア付けを可能にします。
医療と生成AIドメインにおける実証シミュレーションは、フレームワークの経済的ポテンシャルを検証する。
- 参考スコア(独自算出の注目度): 10.12846924939717
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid expansion of Artificial Intelligence is hindered by a fundamental friction in data markets: the value-privacy dilemma, where buyers cannot verify a dataset's utility without inspection, yet inspection may expose the data (Arrow's Information Paradox). We resolve this challenge by introducing the Trustworthy Influence Protocol (TIP), a privacy-preserving framework that enables prospective buyers to quantify the utility of external data without ever decrypting the raw assets. By integrating Homomorphic Encryption with gradient-based influence functions, our approach allows for the precise, blinded scoring of data points against a buyer's specific AI model. To ensure scalability for Large Language Models (LLMs), we employ low-rank gradient projections that reduce computational overhead while maintaining near-perfect fidelity to plaintext baselines, as demonstrated across BERT and GPT-2 architectures. Empirical simulations in healthcare and generative AI domains validate the framework's economic potential: we show that encrypted valuation signals achieve a high correlation with realized clinical utility and reveal a heavy-tailed distribution of data value in pre-training corpora where a minority of texts drive capability while the majority degrades it. These findings challenge prevailing flat-rate compensation models and offer a scalable technical foundation for a meritocratic, secure data economy.
- Abstract(参考訳): 価値プライバシのジレンマ — 購入者が検査なしでデータセットのユーティリティを検証できないが、検査はデータを公開する(Arrow's Information Paradox)。
原資産を復号することなく外部データの有用性を定量化するためのプライバシー保護フレームワークであるTrustworthy Influence Protocol(TIP)を導入することで、この問題を解決する。
均質暗号化と勾配に基づく影響関数を統合することで、当社のアプローチは、購入者の特定のAIモデルに対して、正確で盲目なデータポイントのスコア付けを可能にします。
LLM(Large Language Models)のスケーラビリティを確保するため,BERT や GPT-2 アーキテクチャで示されるような,平文ベースラインにほぼ完全な忠実さを維持しながら計算オーバーヘッドを低減できる低ランク勾配プロジェクションを採用している。
医療と生成AIドメインにおける実証的なシミュレーションにより、このフレームワークの経済的ポテンシャルが検証される。我々は、暗号化された評価信号が、実現された臨床ユーティリティと高い相関を達成し、少数のテキストがそれを劣化させる前に、学習前のコーパスでデータ値の重み付き分布を明らかにする。
これらの発見は、フラットレートの補償モデルに挑戦し、有益でセキュアなデータ経済のためのスケーラブルな技術基盤を提供する。
関連論文リスト
- Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - SynBench: A Benchmark for Differentially Private Text Generation [35.908455649647784]
医療や金融といった高度な分野におけるデータ駆動型意思決定のサポートは、データ共有にとって大きな障壁に直面している。
大規模言語モデルのような最近の生成AIモデルは、オープンドメインタスクにおいて印象的なパフォーマンスを示している。
しかし、彼らのセンシティブな環境への導入は、予測不可能な振る舞いと、プライバシー保護の不十分なデータセットによって制限されている。
論文 参考訳(メタデータ) (2025-09-18T03:57:50Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Empirical Analysis of Privacy-Fairness-Accuracy Trade-offs in Federated Learning: A Step Towards Responsible AI [6.671649946926508]
フェデレーテッド・ラーニング(FL)におけるプライバシ・フェアネス・ユーティリティ・トレードオフに関する大規模な実証的研究について紹介する。
フェアネス・アウェアと差分プライバシー(DP)、同相暗号化(HE)、セキュアマルチパーティ暗号化(SMC)を比較した。
DPメカニズムは、公平性、歪み、公平性に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2025-03-20T15:31:01Z) - How Breakable Is Privacy: Probing and Resisting Model Inversion Attacks in Collaborative Inference [13.453033795109155]
協調推論は、中間機能をクラウドモデルに伝達することでエッジデバイスの計算効率を向上させる。
モデル逆攻撃(MIA)の難しさを評価するための確立された基準はない。
本稿では、CIにおけるMIAの難易度を評価するための最初の理論的基準を提案し、相互情報、エントロピー、有効情報量などを重要な要因として同定する。
論文 参考訳(メタデータ) (2025-01-01T13:00:01Z) - Generative AI for Secure and Privacy-Preserving Mobile Crowdsensing [74.58071278710896]
生成AIは、学術分野と産業分野の両方から多くの注目を集めている。
セキュアでプライバシ保護のモバイルクラウドセンシング(SPPMCS)は、データ収集/取得に広く応用されている。
論文 参考訳(メタデータ) (2024-05-17T04:00:58Z) - Provably Unlearnable Data Examples [27.24152626809928]
原文(投稿日:2012/09/19)へのリンク 未許可のモデルでは、共有データを学習不能にするための努力が続けられている。
本稿では、学習不能データセットのいわゆる$(q, eta)$-Learnabilityを認証するためのメカニズムを提案する。
認証の低い$(q, eta)$-Learnabilityは、データセットに対するより堅牢で効果的な保護を示している。
論文 参考訳(メタデータ) (2024-05-06T09:48:47Z) - Reconciling AI Performance and Data Reconstruction Resilience for
Medical Imaging [52.578054703818125]
人工知能(AI)モデルは、トレーニングデータの情報漏洩に対して脆弱であり、非常に敏感である。
差別化プライバシ(DP)は、定量的なプライバシー予算を設定することで、これらの感受性を回避することを目的としている。
非常に大きなプライバシ予算を使用することで、リコンストラクション攻撃は不可能であり、パフォーマンスの低下は無視可能であることを示す。
論文 参考訳(メタデータ) (2023-12-05T12:21:30Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。