論文の概要: Panza: Design and Analysis of a Fully-Local Personalized Text Writing Assistant
- arxiv url: http://arxiv.org/abs/2407.10994v4
- Date: Mon, 10 Feb 2025 15:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:28:03.726375
- Title: Panza: Design and Analysis of a Fully-Local Personalized Text Writing Assistant
- Title(参考訳): Panza: 完全なパーソナライズされたテキスト記述アシスタントの設計と解析
- Authors: Armand Nicolicioiu, Eugenia Iofinova, Andrej Jovanovic, Eldar Kurtic, Mahdi Nikdan, Andrei Panferov, Ilia Markov, Nir Shavit, Dan Alistarh,
- Abstract要約: そこで我々は,Panzaと呼ばれる自動アシスタントの設計と評価を行う。
Panzaのパーソナライズ機能は、Retrieval-Augmented GenerationとともにReverse Instructionsテクニックの変種を使用した微調整の組み合わせに基づいている。
この組み合わせにより、非常に限られたリソース上で実行しながら、LLMを微調整して、限られたデータを使ってユーザの書き込みスタイルを反映できることを示す。
- 参考スコア(独自算出の注目度): 28.752596543740225
- License:
- Abstract: The availability of powerful open-source large language models (LLMs) opens exciting use-cases, such as using personal data to fine-tune these models to imitate a user's unique writing style. Two key requirements for such assistants are personalization - in the sense that the assistant should recognizably reflect the user's own writing style - and privacy - users may justifiably be wary of uploading extremely personal data, such as their email archive, to a third-party service. In this paper, we present a new design and evaluation for such an automated assistant, for the specific use case of email generation, which we call Panza. Panza's personalization features are based on a combination of fine-tuning using a variant of the Reverse Instructions technique together with Retrieval-Augmented Generation (RAG). We demonstrate that this combination allows us to fine-tune an LLM to reflect a user's writing style using limited data, while executing on extremely limited resources, e.g. on a free Google Colab instance. Our key methodological contribution is the first detailed study of evaluation metrics for this personalized writing task, and of how different choices of system components--the use of RAG and of different fine-tuning approaches-impact the system's performance. Additionally, we demonstrate that very little data - under 100 email samples - are sufficient to create models that convincingly imitate humans. This finding showcases a previously-unknown attack vector in language models - that access to a small number of writing samples can allow a bad actor to cheaply create generative models that imitate a target's writing style. We are releasing the full Panza code as well as three new email datasets licensed for research use at https://github.com/IST-DASLab/PanzaMail.
- Abstract(参考訳): 強力なオープンソースの大規模言語モデル(LLM)が利用可能になったことで、パーソナルデータを使用してこれらのモデルを微調整して、ユーザのユニークな書き込みスタイルを模倣するといった、エキサイティングなユースケースが開かれる。
このようなアシスタントの2つの重要な要件は、パーソナライズ(パーソナライズ)である - アシスタントがユーザ自身の書き込みスタイルを認識して反映すべきであるという意味で - とプライバシ(プライバシ) – ユーザが、Eメールアーカイブなどの極めて個人的なデータをサードパーティサービスにアップロードすることに対して、十分注意を払っているかも知れない。
本稿では,Panzaと呼ばれるメール生成の特定のユースケースに対して,そのような自動アシスタントの設計と評価を行う。
Panzaのパーソナライズ機能は、Retrieval-Augmented Generation (RAG)とともに、Reverse Instructions テクニックの変種を用いた微調整の組み合わせに基づいている。
この組み合わせによって、無料のGoogle Colabインスタンスなど、非常に限られたリソース上で実行しながら、制限されたデータを使用して、LCMを微調整して、ユーザの書き込みスタイルを反映できることを実証します。
我々の主要な方法論的コントリビューションは、このパーソナライズされた書き込みタスクの評価基準と、システムコンポーネントの異なる選択方法、RAGと異なる微調整アプローチの使用がシステムパフォーマンスに与える影響について、最初の詳細な研究である。
さらに、100通のメールサンプル未満の非常に小さなデータが、人間を説得力のある模倣モデルを作るのに十分であることを実証しています。
この発見は、言語モデルでこれまで知られていなかった攻撃ベクトルを示す。少数の書き込みサンプルにアクセスすることで、悪いアクターがターゲットの書き込みスタイルを模倣する生成モデルを安価に作成できるようになる。
完全なPanzaコードと、研究用にライセンスされた3つの新しいEメールデータセットをhttps://github.com/IST-DASLab/PanzaMailでリリースしています。
関連論文リスト
- Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - Step-Back Profiling: Distilling User History for Personalized Scientific Writing [50.481041470669766]
大きな言語モデル(LLM)は、さまざまな自然言語処理タスクに優れていますが、個人向けにパーソナライズされたコンテンツを生成するのに苦労しています。
ユーザ履歴を簡潔なプロファイルに抽出することで,LSMをパーソナライズするためのSTEP-BACK ProFIlingを導入する。
本手法は,一般パーソナライゼーションベンチマークにおいて,ベースラインを最大3.6ポイント向上させる。
論文 参考訳(メタデータ) (2024-06-20T12:58:26Z) - Weaver: Foundation Models for Creative Writing [61.26716770063019]
私たちはWeaverを紹介します。これは、コンテンツ作成専用の大規模言語モデル(LLM)の最初のファミリーです。
Weaverは、大規模言語モデルの書き込み機能の改善に焦点を当てた、慎重に選択されたコーパスで事前トレーニングされている。
創造的かつ専門的な執筆目的のためにWeaverを微調整し、プロの作家の好みに合わせて調整します。
論文 参考訳(メタデータ) (2024-01-30T18:58:43Z) - Generating Illustrated Instructions [41.613203340244155]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。
大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:20Z) - Who's Harry Potter? Approximate Unlearning in LLMs [4.821438899378393]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。
これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。
本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T17:48:14Z) - PerPLM: Personalized Fine-tuning of Pretrained Language Models via
Writer-specific Intermediate Learning and Prompts [16.59511985633798]
事前訓練言語モデル(PLM)はコンテキストをキャプチャするための強力なツールである。
PLMは通常、様々な作家の間で広く使われるように訓練され、微調整されている。
本研究では, PLMの微調整を具体化することで, テキスト理解タスクの精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2023-09-14T14:03:48Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition [36.12001394921506]
我々は手書き文字認識の新しい手法を提案する。
新しいメタラーニングフレームワークを使い、新たなライターデータを利用する。
当社のフレームワークは、最先端のHTRモデルの上に簡単に実装できます。
論文 参考訳(メタデータ) (2021-04-05T12:35:39Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。