論文の概要: Non-Rival Data as Rival Products: An Encapsulation-Forging Approach for Data Synthesis
- arxiv url: http://arxiv.org/abs/2511.06610v1
- Date: Mon, 10 Nov 2025 01:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.021877
- Title: Non-Rival Data as Rival Products: An Encapsulation-Forging Approach for Data Synthesis
- Title(参考訳): ライバル製品としての非ライバルデータ:データ合成のためのカプセル化フォージングアプローチ
- Authors: Kaidong Wang, Jiale Li, Shao-Bo Lin, Yao Wang,
- Abstract要約: 本稿では,非対称なユーティリティで競合する合成データを生成する新しい手法であるEncapsulation-Forgingフレームワークを提案する。
筆者らのフレームワークは,サンプルの効率を目覚ましいものにし,元のデータの性能をわずかなサイズで一致させる。
- 参考スコア(独自算出の注目度): 17.855797047968696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The non-rival nature of data creates a dilemma for firms: sharing data unlocks value but risks eroding competitive advantage. Existing data synthesis methods often exacerbate this problem by creating data with symmetric utility, allowing any party to extract its value. This paper introduces the Encapsulation-Forging (EnFo) framework, a novel approach to generate rival synthetic data with asymmetric utility. EnFo operates in two stages: it first encapsulates predictive knowledge from the original data into a designated ``key'' model, and then forges a synthetic dataset by optimizing the data to intentionally overfit this key model. This process transforms non-rival data into a rival product, ensuring its value is accessible only to the intended model, thereby preventing unauthorized use and preserving the data owner's competitive edge. Our framework demonstrates remarkable sample efficiency, matching the original data's performance with a fraction of its size, while providing robust privacy protection and resistance to misuse. EnFo offers a practical solution for firms to collaborate strategically without compromising their core analytical advantage.
- Abstract(参考訳): データの共有は価値を解放するが、競争上の優位性を損なうリスクがある。
既存のデータ合成法はしばしば、対称的なユーティリティでデータを作成し、その価値を抽出することで、この問題を悪化させる。
本稿では,非対称なユーティリティで競合する合成データを生成する新しい手法であるEncapsulation-Forging(EnFo)フレームワークを提案する。
EnFoは2つの段階で動作する。最初の段階では、元のデータからの予測的知識を `key'' モデルにカプセル化し、次に、このキーモデルに意図的に適合するようにデータを最適化することで、合成データセットをフォージする。
このプロセスは、非軍事データを競合製品に変換し、その価値が意図されたモデルにのみアクセス可能であることを保証することにより、不正使用を防止し、データ所有者の競争力を維持する。
当社のフレームワークでは,元のデータのパフォーマンスを少数のサイズで一致させるとともに,堅牢なプライバシ保護と誤用に対する抵抗を実現している。
EnFoは、企業にとって、中核的な分析上の優位性を損なうことなく、戦略的に協力する実践的なソリューションを提供する。
関連論文リスト
- FEST: A Unified Framework for Evaluating Synthetic Tabular Data [1.7710455260789109]
FESTは、合成データにおけるプライバシ保護とデータユーティリティのバランスを評価するためのフレームワークである。
FESTは、さまざまなプライバシメトリクス(アタックベースと距離ベース)と、類似性とマシンラーニングユーティリティメトリクスを統合している。
オープンソースPythonベースのライブラリとしてFESTを開発し、複数のデータセット上で検証する。
論文 参考訳(メタデータ) (2025-08-22T09:38:02Z) - SMOTE-DP: Improving Privacy-Utility Tradeoff with Synthetic Data [13.699107354397286]
合成データ生成の適切なメカニズムにより、大きなユーティリティ損失を伴わずに、強力なプライバシ保護を実現することができることを示す。
我々は,このSMOTE-DP技術が,堅牢なプライバシ保護を保証するだけでなく,下流学習タスクにおいて有効性を維持する合成データを生成することを理論的および実証的な実証を通じて証明した。
論文 参考訳(メタデータ) (2025-06-02T17:27:10Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - VFLGAN: Vertical Federated Learning-based Generative Adversarial Network for Vertically Partitioned Data Publication [16.055684281505474]
本稿では,垂直分割型データパブリッシングのための垂直フェデレート学習に基づく生成広告ネットワーク,VFLGANを提案する。
VFLGANが生成した合成データセットの品質は、VertiGANが生成したデータセットの3.2倍である。
また,合成データセットによるプライバシー漏洩を推定するために,会員推定攻撃を適用した実践的な監査手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T12:25:41Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。