論文の概要: Personalized Language Model Learning on Text Data Without User Identifiers
- arxiv url: http://arxiv.org/abs/2501.06062v1
- Date: Fri, 10 Jan 2025 15:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:48.827435
- Title: Personalized Language Model Learning on Text Data Without User Identifiers
- Title(参考訳): ユーザ識別のないテキストデータを用いたパーソナライズド言語モデル学習
- Authors: Yucheng Ding, Yangwenjian Tan, Xiangyu Liu, Chaoyue Niu, Fandong Meng, Jie Zhou, Ning Liu, Fan Wu, Guihai Chen,
- Abstract要約: ユーザの埋め込みを動的に生成するために,各モバイルデバイスがユーザ固有の分布を維持することを提案する。
クラウドがアップロードされた埋め込みを通じてユーザを追跡するのを防ぐために、異なるユーザのローカルディストリビューションは、線形依存空間から導出されるべきである。
パブリックデータセットとインダストリアルデータセットの両方の評価では、匿名ユーザ埋め込みの導入による精度の大幅な向上が示されている。
- 参考スコア(独自算出の注目度): 79.36212347601223
- License:
- Abstract: In many practical natural language applications, user data are highly sensitive, requiring anonymous uploads of text data from mobile devices to the cloud without user identifiers. However, the absence of user identifiers restricts the ability of cloud-based language models to provide personalized services, which are essential for catering to diverse user needs. The trivial method of replacing an explicit user identifier with a static user embedding as model input still compromises data anonymization. In this work, we propose to let each mobile device maintain a user-specific distribution to dynamically generate user embeddings, thereby breaking the one-to-one mapping between an embedding and a specific user. We further theoretically demonstrate that to prevent the cloud from tracking users via uploaded embeddings, the local distributions of different users should either be derived from a linearly dependent space to avoid identifiability or be close to each other to prevent accurate attribution. Evaluation on both public and industrial datasets using different language models reveals a remarkable improvement in accuracy from incorporating anonymous user embeddings, while preserving real-time inference requirement.
- Abstract(参考訳): 多くの実用的な自然言語アプリケーションでは、ユーザデータは極めて敏感であり、ユーザ識別子なしでモバイルデバイスからクラウドに匿名でテキストデータをアップロードする必要がある。
しかし、ユーザ識別子がないため、クラウドベースの言語モデルがパーソナライズされたサービスを提供する能力は制限される。
明示的なユーザ識別子をモデル入力として静的なユーザ埋め込みに置き換える簡単な方法は、依然としてデータの匿名化を損なう。
本研究では,各モバイルデバイスがユーザ固有の分布を維持し,ユーザ埋め込みを動的に生成することで,埋め込みと特定のユーザ間の一対一マッピングを壊すことを提案する。
さらに,クラウドがアップロードされた埋め込みによってユーザを追跡するのを防ぐために,異なるユーザのローカル分布を線形依存空間から導出するか,あるいは正確な帰属を防ぐために互いに近接しているかを理論的に示す。
異なる言語モデルを用いたパブリックデータセットとインダストリアルデータセットの評価では、匿名ユーザ埋め込みの導入による精度の大幅な向上と、リアルタイム推論要求の保存が示されている。
関連論文リスト
- Personalized Federated Collaborative Filtering: A Variational AutoEncoder Approach [49.63614966954833]
Federated Collaborative Filtering (FedCF)は、プライバシを保護する新しいレコメンデーションフレームワークの開発に焦点を当てた新興分野である。
既存のFedCFメソッドは通常、分散協調フィルタリング(CF)アルゴリズムとプライバシ保護メカニズムを組み合わせて、パーソナライズされた情報をユーザ埋め込みベクタに保存する。
本稿では,ユーザのパーソナライズされた情報を潜在変数とニューラルモデルに同時に保存することで,新たなパーソナライズされたFedCF手法を提案する。
論文 参考訳(メタデータ) (2024-08-16T05:49:14Z) - Learning User Embeddings from Human Gaze for Personalised Saliency Prediction [12.361829928359136]
本稿では,自然画像のペアと対応する相性マップからユーザ埋め込みを抽出する新しい手法を提案する。
提案手法のコアとなるのは,異なるユーザのイメージと個人満足度マップのペアを対比することにより,ユーザの埋め込みを学習する,シームズ畳み込みニューラルエンコーダである。
論文 参考訳(メタデータ) (2024-03-20T14:58:40Z) - Perennial Semantic Data Terms of Use for Decentralized Web [14.831528850463373]
データ用語(Data Terms of Use, DTOU)の新たな形式記述を提案する。
ユーザとアプリケーションは、ローカル知識でDToUポリシーの独自の部分を指定する。
これは年長のDTOU言語を構成するもので、ポリシーのオーサリングは一度しか行われない。
論文 参考訳(メタデータ) (2024-03-12T12:18:20Z) - User Inference Attacks on Large Language Models [26.616016510555088]
ファインチューニング(英: Fine-tuning)は、大規模言語モデル(LLM)を特定のタスクやアプリケーションに合わせるための、一般的で効果的な方法である。
ユーザデータに対する微調整LDMのプライバシーへの影響について検討する。
論文 参考訳(メタデータ) (2023-10-13T17:24:52Z) - X2T: Training an X-to-Text Typing Interface with Online Learning from
User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。
標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。
このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文 参考訳(メタデータ) (2022-03-04T00:07:20Z) - Federated Learning of User Verification Models Without Sharing
Embeddings [73.27015469166166]
Federated User Verification(FedUV)は、ユーザが一連のベクトルを共同で学習し、それらのベクトルの秘密の線形結合とインスタンスの埋め込みの相関を最大化するフレームワークである。
誤り訂正符号の符号語から線形結合を選択することで,組込みベクトルを明かさずに協調的にモデルを訓練できることを示す。
論文 参考訳(メタデータ) (2021-04-18T08:51:39Z) - Federated Learning of User Authentication Models [69.93965074814292]
機械学習モデルのプライバシー保護のためのフレームワークであるFederated User Authentication (FedUA)を提案する。
FedUAは、フェデレートされた学習フレームワークを採用して、ユーザが生の入力を共有することなく、共同でモデルをトレーニングできるようにする。
提案手法はプライバシ保護であり,多数のユーザに対してスケーラブルであることを示し,出力層を変更することなく,新たなユーザをトレーニングに追加できるようにした。
論文 参考訳(メタデータ) (2020-07-09T08:04:38Z) - Unsupervised Model Personalization while Preserving Privacy and
Scalability: An Open Problem [55.21502268698577]
本研究では,非教師なしモデルパーソナライゼーションの課題について検討する。
この問題を探求するための新しいDual User-Adaptation Framework(DUA)を提供する。
このフレームワークは、サーバ上のモデルパーソナライズとユーザデバイス上のローカルデータ正規化に柔軟にユーザ適応を分散させる。
論文 参考訳(メタデータ) (2020-03-30T09:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。