論文の概要: Panza: Design and Analysis of a Fully-Local Personalized Text Writing Assistant
- arxiv url: http://arxiv.org/abs/2407.10994v4
- Date: Mon, 10 Feb 2025 15:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:28:03.726375
- Title: Panza: Design and Analysis of a Fully-Local Personalized Text Writing Assistant
- Title(参考訳): Panza: 完全なパーソナライズされたテキスト記述アシスタントの設計と解析
- Authors: Armand Nicolicioiu, Eugenia Iofinova, Andrej Jovanovic, Eldar Kurtic, Mahdi Nikdan, Andrei Panferov, Ilia Markov, Nir Shavit, Dan Alistarh,
- Abstract要約: そこで我々は,Panzaと呼ばれる自動アシスタントの設計と評価を行う。
Panzaのパーソナライズ機能は、Retrieval-Augmented GenerationとともにReverse Instructionsテクニックの変種を使用した微調整の組み合わせに基づいている。
この組み合わせにより、非常に限られたリソース上で実行しながら、LLMを微調整して、限られたデータを使ってユーザの書き込みスタイルを反映できることを示す。
- 参考スコア(独自算出の注目度): 28.752596543740225
- License:
- Abstract: The availability of powerful open-source large language models (LLMs) opens exciting use-cases, such as using personal data to fine-tune these models to imitate a user's unique writing style. Two key requirements for such assistants are personalization - in the sense that the assistant should recognizably reflect the user's own writing style - and privacy - users may justifiably be wary of uploading extremely personal data, such as their email archive, to a third-party service. In this paper, we present a new design and evaluation for such an automated assistant, for the specific use case of email generation, which we call Panza. Panza's personalization features are based on a combination of fine-tuning using a variant of the Reverse Instructions technique together with Retrieval-Augmented Generation (RAG). We demonstrate that this combination allows us to fine-tune an LLM to reflect a user's writing style using limited data, while executing on extremely limited resources, e.g. on a free Google Colab instance. Our key methodological contribution is the first detailed study of evaluation metrics for this personalized writing task, and of how different choices of system components--the use of RAG and of different fine-tuning approaches-impact the system's performance. Additionally, we demonstrate that very little data - under 100 email samples - are sufficient to create models that convincingly imitate humans. This finding showcases a previously-unknown attack vector in language models - that access to a small number of writing samples can allow a bad actor to cheaply create generative models that imitate a target's writing style. We are releasing the full Panza code as well as three new email datasets licensed for research use at https://github.com/IST-DASLab/PanzaMail.
- Abstract(参考訳): 強力なオープンソースの大規模言語モデル(LLM)が利用可能になったことで、パーソナルデータを使用してこれらのモデルを微調整して、ユーザのユニークな書き込みスタイルを模倣するといった、エキサイティングなユースケースが開かれる。
このようなアシスタントの2つの重要な要件は、パーソナライズ(パーソナライズ)である - アシスタントがユーザ自身の書き込みスタイルを認識して反映すべきであるという意味で - とプライバシ(プライバシ) – ユーザが、Eメールアーカイブなどの極めて個人的なデータをサードパーティサービスにアップロードすることに対して、十分注意を払っているかも知れない。
本稿では,Panzaと呼ばれるメール生成の特定のユースケースに対して,そのような自動アシスタントの設計と評価を行う。
Panzaのパーソナライズ機能は、Retrieval-Augmented Generation (RAG)とともに、Reverse Instructions テクニックの変種を用いた微調整の組み合わせに基づいている。
この組み合わせによって、無料のGoogle Colabインスタンスなど、非常に限られたリソース上で実行しながら、制限されたデータを使用して、LCMを微調整して、ユーザの書き込みスタイルを反映できることを実証します。
我々の主要な方法論的コントリビューションは、このパーソナライズされた書き込みタスクの評価基準と、システムコンポーネントの異なる選択方法、RAGと異なる微調整アプローチの使用がシステムパフォーマンスに与える影響について、最初の詳細な研究である。
さらに、100通のメールサンプル未満の非常に小さなデータが、人間を説得力のある模倣モデルを作るのに十分であることを実証しています。
この発見は、言語モデルでこれまで知られていなかった攻撃ベクトルを示す。少数の書き込みサンプルにアクセスすることで、悪いアクターがターゲットの書き込みスタイルを模倣する生成モデルを安価に作成できるようになる。
完全なPanzaコードと、研究用にライセンスされた3つの新しいEメールデータセットをhttps://github.com/IST-DASLab/PanzaMailでリリースしています。
関連論文リスト
- Memory Augmented Cross-encoders for Controllable Personalized Search [53.7152408217116]
制御可能なパーソナライズされた検索のためのアプローチを提案する。
我々のモデルであるCtrlCEは,ユーザの履歴項目から編集可能なメモリを付加した,新しいクロスエンコーダモデルを提案する。
我々は、CtrlCEを効果的にパーソナライズし、制御可能なパーソナライズ検索の様々な重要な目標を達成できることを示す。
論文 参考訳(メタデータ) (2024-11-05T03:55:25Z) - PERSOMA: PERsonalized SOft ProMpt Adapter Architecture for Personalized Language Prompting [44.32537382154617]
PERSOMAは、ユーザ履歴を効率的にキャプチャするための新しいアプローチを提供する。
これは、対話を自由形式のテキストとして表現力のあるソフトプロンプト埋め込みに再サンプリングし、圧縮することで実現される。
PERSOMAは,既存の埋め込み技術やテキストプロンプト技術と比較して,大規模かつ複雑なユーザ履歴を扱う能力に優れていた。
論文 参考訳(メタデータ) (2024-08-02T00:24:22Z) - Federated Adaptation for Foundation Model-based Recommendations [29.86114788739202]
プライバシ保存方式で基礎モデルに基づくレコメンデーションシステムを強化するための新しい適応機構を提案する。
ユーザのプライベートな行動データは、サーバと共有されないため、安全である。
4つのベンチマークデータセットの実験結果から,提案手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-05-08T06:27:07Z) - Personalized Language Modeling from Personalized Human Feedback [49.344833339240566]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせて大きな言語モデルを微調整するために一般的に用いられる。
本研究では,パーソナライズされた言語モデルを構築する手法を開発することにより,この問題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Personalized Large Language Model Assistant with Evolving Conditional Memory [15.780762727225122]
条件記憶を進化させる大規模言語モデルアシスタントをパーソナライズするためのプラグイン・アンド・プレイフレームワークを提案する。
パーソナライズされたアシスタントは、ユーザとの履歴対話から知識と経験をインテリジェントに保存することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-22T02:39:15Z) - PerPLM: Personalized Fine-tuning of Pretrained Language Models via
Writer-specific Intermediate Learning and Prompts [16.59511985633798]
事前訓練言語モデル(PLM)はコンテキストをキャプチャするための強力なツールである。
PLMは通常、様々な作家の間で広く使われるように訓練され、微調整されている。
本研究では, PLMの微調整を具体化することで, テキスト理解タスクの精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2023-09-14T14:03:48Z) - FedJETs: Efficient Just-In-Time Personalization with Federated Mixture
of Experts [48.78037006856208]
FedJETsは、Federated Learning(FL)セットアップ内でMixture-of-Experts(MoE)フレームワークを使用することで、新しいソリューションである。
我々の方法は、クライアントの多様性を活用して、クラスのサブセットの異なる専門家を訓練し、最も関係のある専門家に入力をルーティングするゲーティング機能を提供します。
我々の手法は、競争力のあるゼロショット性能を維持しながら、アートFL設定時の精度を最大18%向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T15:47:52Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Dual Personalization on Federated Recommendation [50.4115315992418]
フェデレートされたレコメンデーションは、フェデレーションされた設定でプライバシを保存するレコメンデーションサービスを提供することを目的とした、新しいインターネットサービスアーキテクチャである。
本稿では,ユーザ固有の軽量モデルの多くを学習するためのPersonalized Federated Recommendation(PFedRec)フレームワークを提案する。
また、ユーザとアイテムの両方の詳細なパーソナライズを効果的に学習するための、新しい二重パーソナライズ機構を提案する。
論文 参考訳(メタデータ) (2023-01-16T05:26:07Z) - FedPC: Federated Learning for Language Generation with Personal and
Context Preference Embeddings [10.235620939242505]
フェデレーション学習(Federated Learning)は、集中型サーバにデータを集約することなく、複数の分散ユーザから学習するトレーニングパラダイムである。
我々は,個人埋め込みと共有コンテキスト埋め込みの両面を活用した,フェデレートラーニングにおけるパーソナライズ研究の新しい方向性を提案する。
本稿では,これらの嗜好の埋め込みを予測し,バックプロパゲーションを伴わないパーソナライズを可能にするアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-07T18:01:19Z) - Unsupervised Model Personalization while Preserving Privacy and
Scalability: An Open Problem [55.21502268698577]
本研究では,非教師なしモデルパーソナライゼーションの課題について検討する。
この問題を探求するための新しいDual User-Adaptation Framework(DUA)を提供する。
このフレームワークは、サーバ上のモデルパーソナライズとユーザデバイス上のローカルデータ正規化に柔軟にユーザ適応を分散させる。
論文 参考訳(メタデータ) (2020-03-30T09:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。