論文の概要: Learning Obfuscations Of LLM Embedding Sequences: Stained Glass Transform
- arxiv url: http://arxiv.org/abs/2506.09452v1
- Date: Wed, 11 Jun 2025 06:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.665184
- Title: Learning Obfuscations Of LLM Embedding Sequences: Stained Glass Transform
- Title(参考訳): LLM埋め込みシーケンスの難読化:ステンドグラス変換
- Authors: Jay Roberts, Kyle Mylonakis, Sidhartha Roy, Kaan Kale,
- Abstract要約: 我々は、AIモデルの単語埋め込みの学習されたシーケンス依存的な変換であるStained Glass Transformを紹介する。
我々は、相互情報に基づいて、事後プライバシ推定を算出し、変換された埋め込みのインスタンスのプライバシと実用性を検証する。
- 参考スコア(独自算出の注目度): 1.8749305679160366
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The high cost of ownership of AI compute infrastructure and challenges of robust serving of large language models (LLMs) has led to a surge in managed Model-as-a-service deployments. Even when enterprises choose on-premises deployments, the compute infrastructure is typically shared across many teams in order to maximize the return on investment. In both scenarios the deployed models operate only on plaintext data, and so enterprise data owners must allow their data to appear in plaintext on a shared or multi-tenant compute infrastructure. This results in data owners with private or sensitive data being hesitant or restricted in what data they use with these types of deployments. In this work we introduce the Stained Glass Transform, a learned, stochastic, and sequence dependent transformation of the word embeddings of an LLM which information theoretically provides privacy to the input of the LLM while preserving the utility of model. We theoretically connect a particular class of Stained Glass Transforms to the theory of mutual information of Gaussian Mixture Models. We then calculate a-postiori privacy estimates, based on mutual information, and verify the privacy and utility of instances of transformed embeddings through token level metrics of privacy and standard LLM performance benchmarks.
- Abstract(参考訳): AIコンピューティングインフラストラクチャのオーナシップの高コストと、大規模言語モデル(LLM)の堅牢な提供という課題により、マネージドなモデル・アズ・ア・サービスデプロイメントが急増した。
企業がオンプレミスのデプロイメントを選択しても、投資のリターンを最大化するために、計算インフラストラクチャは一般的に多くのチーム間で共有される。
どちらのシナリオでも、デプロイされたモデルはプレーンテキストデータのみで動作するため、エンタープライズデータ所有者は、データを共有またはマルチテナントコンピューティングインフラストラクチャ上でプレーンテキストで表示しなければなりません。
これにより、プライベートまたはセンシティブなデータを持つデータ所有者は、この種のデプロイメントで使用するデータに対して、威圧的あるいは制限的になる。
本研究では,LLMの単語埋め込みの学習的,確率的,シーケンス依存的な変換であるStained Glass Transformを紹介し,モデルの有用性を維持しつつ,LLMの入力に対して理論的にプライバシを提供する。
理論的には、特定の種類のステンドガラス変換をガウス混合モデルの相互情報理論に結び付ける。
次に、相互情報に基づいてアポトリオリのプライバシ推定を算出し、トークンレベルのプライバシと標準LLMパフォーマンスベンチマークを用いて、変換された埋め込みのインスタンスのプライバシとユーティリティを検証する。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Federated In-Context LLM Agent Learning [3.4757641432843487]
大規模言語モデル(LLM)は、論理的推論、ツールの使用、エージェントとしての外部システムとの相互作用を可能にすることによって、インテリジェントなサービスに革命をもたらした。
本稿では,プライバシ保護型フェデレーション・イン・コンテクスト LLM Agent Learning (FICAL) アルゴリズムを提案する。
その結果、FICALは、他のSOTAベースラインと比較して競争性能が優れており、通信コストの大幅な削減は、$mathbf3.33times105$倍であることがわかった。
論文 参考訳(メタデータ) (2024-12-11T03:00:24Z) - Model-based Large Language Model Customization as Service [34.949731264918846]
OpenAIやGoogleといったプロバイダによる大規模言語モデル(LLM)サービスは、一般的なタスクでは優れているが、ドメイン固有のアプリケーションではパフォーマンスが劣ることが多い。
Llamdexは、LLMのカスタマイズをサービスとして促進する新しいフレームワークで、クライアントはデータではなく、トレーニング済みのドメイン固有モデルをアップロードする。
実験によると、Llamdexは、同じプライバシー制約の下で、最先端のプライベートデータ合成メソッドに対して、ドメイン固有の精度を最大26%向上する。
論文 参考訳(メタデータ) (2024-10-14T13:18:20Z) - HARMONIC: Harnessing LLMs for Tabular Data Synthesis and Privacy Protection [44.225151701532454]
本稿では,表データ生成と評価のための新しいフレームワークHARMONICを提案する。
本フレームワークは, 既存の手法と同等の性能を向上し, また, 合成データの有効性とプライバシーリスクを評価するための評価枠組みを実証する。
論文 参考訳(メタデータ) (2024-08-06T03:21:13Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。