論文の概要: Input Reconstruction Attack against Vertical Federated Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.07585v2
- Date: Fri, 24 Nov 2023 07:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 02:11:26.685879
- Title: Input Reconstruction Attack against Vertical Federated Large Language
Models
- Title(参考訳): 垂直フェデレート大言語モデルに対する入力再構成攻撃
- Authors: Fei Zheng
- Abstract要約: 大規模言語モデル(LLM)は、ChatGPTの出現により、学界や大衆から広く注目を集めている。
LLMは、様々なタスクのためのテキスト生成における驚くべき能力を示しているが、プライバシに関する懸念は、現実のビジネスでの使用を制限する。
本稿では,垂直連合学習(VFL)が,このような問題に対する有望な解決策であることを示す。
モデルの底部と上部に分割することで、ユーザの入力とモデルの知識の両方を保護し、それぞれがユーザとモデルプロバイダによって維持される。
- 参考スコア(独自算出の注目度): 1.1603243575080535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large language models (LLMs) have drawn extensive attention from
academia and the public, due to the advent of the ChatGPT. While LLMs show
their astonishing ability in text generation for various tasks, privacy
concerns limit their usage in real-life businesses. More specifically, either
the user's inputs (the user sends the query to the model-hosting server) or the
model (the user downloads the complete model) itself will be revealed during
the usage. Vertical federated learning (VFL) is a promising solution to this
kind of problem. It protects both the user's input and the knowledge of the
model by splitting the model into a bottom part and a top part, which is
maintained by the user and the model provider, respectively. However, in this
paper, we demonstrate that in LLMs, VFL fails to protect the user input since
it is simple and cheap to reconstruct the input from the intermediate
embeddings. Experiments show that even with a commercial GPU, the input
sentence can be reconstructed in only one second. We also discuss several
possible solutions to enhance the privacy of vertical federated LLMs.
- Abstract(参考訳): 近年,ChatGPTの出現により,大規模言語モデル (LLM) が学術や一般の注目を集めている。
LLMは、様々なタスクのためのテキスト生成における驚くべき能力を示しているが、プライバシーに関する懸念は、現実のビジネスでの使用を制限する。
具体的には、ユーザの入力(ユーザがモデルホストサーバにクエリを送信する)またはモデル(ユーザが完全なモデルをダウンロードする)自体が、使用中に明らかにされる。
垂直連合学習(VFL)はこの種の問題に対する有望な解決策である。
モデルの底部と上部に分割することで、ユーザの入力とモデルの知識の両方を保護し、それぞれがユーザとモデルプロバイダによって維持される。
しかし,本稿では,llmsでは,中間組込みから入力を再構成することが簡単で安価であるため,vflではユーザ入力を保護できないことを実証する。
実験の結果、商用GPUでも入力文は1秒で再構築できることがわかった。
また,垂直連合LDMのプライバシーを高めるためのいくつかの解決策についても論じる。
関連論文リスト
- ProFLingo: A Fingerprinting-based Copyright Protection Scheme for Large Language Models [18.46904928949022]
本稿では,大規模な言語モデルを対象としたブラックボックス指紋認証に基づく著作権保護スキームProFLingoを提案する。
本手法は,疑似モデルにおける逆例の有効性を検証し,元モデルから派生したものかどうかを判定する。
論文 参考訳(メタデータ) (2024-05-03T20:00:40Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - User Modeling in the Era of Large Language Models: Current Research and
Future Directions [26.01029236902786]
ユーザモデリング(UM)は、特定のユーザに関するユーザデータからパターンを発見し、表現を学ぶことを目的としている。
データは通常、大量のユーザ生成コンテンツ(UGC)とオンラインインタラクションを含むため、テキストとグラフの2つの一般的なタイプのユーザデータである。
近年,大規模言語モデル (LLM) はテキストデータの生成,理解,推論において優れた性能を示している。
論文 参考訳(メタデータ) (2023-12-11T03:59:36Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Herd: Using multiple, smaller LLMs to match the performances of
proprietary, large LLMs via an intelligent composer [1.0878040851637998]
オープンソースモデルの群れは、インテリジェントルータを介して、プロプライエタリなモデルのパフォーマンスに適合または超えることができることを示す。
GPTがクエリに答えられない場合、Herdは少なくとも40%の確率でモデルを特定できる。
論文 参考訳(メタデータ) (2023-10-30T18:11:02Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Split Federated Learning on Micro-controllers: A Keyword Spotting
Showcase [1.4794135558227681]
フェデレートラーニング(Federated Learning)は,ユーザの生データをサーバに収集することなく,ローカルでモデルをトレーニングする,プライベートラーニングスキームとして提案されている。
本研究では,Arduinoボード上に単純なSFLフレームワークを実装し,90%以上の精度でキーワードスポッティングアプリケーションのための中国語桁音声データセットの正当性を検証した。
英数字音声データセットでは、SFL実装は最先端のFL実装と比較して13.89%高い精度を実現している。
論文 参考訳(メタデータ) (2022-10-04T23:42:45Z) - Federated Distillation of Natural Language Understanding with Confident
Sinkhorns [12.681983862338619]
ユーザデバイス上で訓練された(ローカル)モデルのフェデレーションから,中央(グローバル)モデルを学習するためのアプローチを提案する。
グローバルモデルを学ぶためには,局所モデルに割り当てられたソフトターゲットの信頼度から,グローバルモデル予測の最適輸送コストを最小化する。
論文 参考訳(メタデータ) (2021-10-06T00:44:00Z) - Federated Learning of User Authentication Models [69.93965074814292]
機械学習モデルのプライバシー保護のためのフレームワークであるFederated User Authentication (FedUA)を提案する。
FedUAは、フェデレートされた学習フレームワークを採用して、ユーザが生の入力を共有することなく、共同でモデルをトレーニングできるようにする。
提案手法はプライバシ保護であり,多数のユーザに対してスケーラブルであることを示し,出力層を変更することなく,新たなユーザをトレーニングに追加できるようにした。
論文 参考訳(メタデータ) (2020-07-09T08:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。