論文の概要: ZKPROV: A Zero-Knowledge Approach to Dataset Provenance for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.20915v1
- Date: Thu, 26 Jun 2025 00:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.925194
- Title: ZKPROV: A Zero-Knowledge Approach to Dataset Provenance for Large Language Models
- Title(参考訳): ZKPROV:大規模言語モデルのためのデータセット検出のためのゼロ知識アプローチ
- Authors: Mina Namazi, Alexander Nemecek, Erman Ayday,
- Abstract要約: LLM証明のゼロ知識証明を可能にする新しい暗号フレームワークであるZKPROVを紹介する。
モデルが信頼できるデータセット上でトレーニングされていることを、モデルやパラメータに関する機密情報を公開せずに確認することができる。
本手法は,学習段階の証明を回避しつつ,ゼロ知識証明を通じてトレーニングデータセットにトレーニングモデルを暗号的にバインドする。
- 参考スコア(独自算出の注目度): 46.71493672772134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the deployment of large language models (LLMs) grows in sensitive domains, ensuring the integrity of their computational provenance becomes a critical challenge, particularly in regulated sectors such as healthcare, where strict requirements are applied in dataset usage. We introduce ZKPROV, a novel cryptographic framework that enables zero-knowledge proofs of LLM provenance. It allows users to verify that a model is trained on a reliable dataset without revealing sensitive information about it or its parameters. Unlike prior approaches that focus on complete verification of the training process (incurring significant computational cost) or depend on trusted execution environments, ZKPROV offers a distinct balance. Our method cryptographically binds a trained model to its authorized training dataset(s) through zero-knowledge proofs while avoiding proof of every training step. By leveraging dataset-signed metadata and compact model parameter commitments, ZKPROV provides sound and privacy-preserving assurances that the result of the LLM is derived from a model trained on the claimed authorized and relevant dataset. Experimental results demonstrate the efficiency and scalability of the ZKPROV in generating this proof and verifying it, achieving a practical solution for real-world deployments. We also provide formal security guarantees, proving that our approach preserves dataset confidentiality while ensuring trustworthy dataset provenance.
- Abstract(参考訳): 大規模言語モデル(LLM)のデプロイがセンシティブなドメインで増加するにつれて、特にデータセットの使用に厳格な要件が適用される医療などの規制された分野において、その計算的証明の完全性を保証することが重要な課題となる。
LLM証明のゼロ知識証明を可能にする新しい暗号フレームワークであるZKPROVを紹介する。
モデルが信頼できるデータセット上でトレーニングされていることを、モデルやパラメータに関する機密情報を公開せずに確認することができる。
トレーニングプロセスの完全検証(かなりの計算コストが発生する)や信頼性のある実行環境に依存する以前のアプローチとは異なり、ZKPROVは明確なバランスを提供する。
本手法は,学習段階の証明を回避しつつ,ゼロ知識証明を通じてトレーニングデータセットに学習モデルを暗号的に結合する。
データセットに署名されたメタデータとコンパクトなモデルパラメータのコミットメントを活用することで、ZKPROVは、LLMの結果が、主張された認証された関連するデータセットに基づいてトレーニングされたモデルから導出される、健全でプライバシ保護の保証を提供する。
実験により,ZKPROVの効率性とスケーラビリティを実証し,実世界展開のための実用的なソリューションを実現することができた。
また、正式なセキュリティ保証も提供し、我々のアプローチがデータセットの機密性を維持しつつ、信頼できるデータセットの証明を保証することを証明しています。
関連論文リスト
- Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。
推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。
既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。
本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-06-18T08:46:59Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Engineering Trustworthy Machine-Learning Operations with Zero-Knowledge Proofs [1.7723990552388873]
Zero-Knowledge Proofs (ZKPs) は、検証済みの計算を通じて、機密性の高いモデルの詳細やデータを明らかにすることなく、要求の遵守を証明できる暗号化ソリューションを提供する。
我々は、AI検証と検証パイプラインにおけるアプリケーションに不可欠な5つの重要な特性(非対話性、透過的なセットアップ、標準表現、簡潔性、および後セキュリティ)を特定します。
論文 参考訳(メタデータ) (2025-05-26T15:39:11Z) - Privacy-Preserving Model and Preprocessing Verification for Machine Learning [9.4033740844828]
本稿では、機密データに基づいてトレーニングされたモデルに着目し、機械学習モデルのプライバシ保護検証のためのフレームワークを提案する。
バイナリ分類は、適切な前処理ステップを適用してターゲットモデルが正しくトレーニングされたかどうかを検証し、特定の前処理エラーを特定するマルチクラス分類という2つの重要なタスクに対処する。
その結果、検証精度はデータセットやノイズレベルによって異なるが、このフレームワークは、事前処理エラー、強力なプライバシ保証、機密データの保護のための実践的適用性を効果的に検出する。
論文 参考訳(メタデータ) (2025-01-14T16:21:54Z) - Privacy-Preserving Verifiable Neural Network Inference Service [4.131956503199438]
我々は,クライアントデータサンプルのプライバシを保存するために,プライバシ保護と検証が可能なCNN推論手法を開発した。
vPINは、クライアントデータのプライバシ保証と証明可能な検証性を提供しながら、証明サイズの観点から高い効率を達成する。
論文 参考訳(メタデータ) (2024-11-12T01:09:52Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。