Fugu-MT 論文翻訳(概要): Enabling On-Device Large Language Model Personalization with Self-Supervised Data Selection and Synthesis

論文の概要: Enabling On-Device Large Language Model Personalization with Self-Supervised Data Selection and Synthesis

arxiv url: http://arxiv.org/abs/2311.12275v3
Date: Sun, 14 Jan 2024 04:31:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 00:33:34.752099
Title: Enabling On-Device Large Language Model Personalization with Self-Supervised Data Selection and Synthesis
Title（参考訳）: 自己教師付きデータ選択と合成によるオンデバイス大規模言語モデルのパーソナライズ
Authors: Ruiyang Qin, Jun Xia, Zhenge Jia, Meng Jiang, Ahmed Abbasi, Peipei Zhou, Jingtong Hu, Yiyu Shi
Abstract要約: 本稿では,オンライン上で最も代表的なデータを自己管理的に選択・保存するための新しいフレームワークを提案する。実験の結果,提案フレームワークは,バニラベースラインと比較して,ユーザ固有のコンテンツ生成能力(精度)と微調整速度(性能)に優れていた。
参考スコア（独自算出の注目度）: 28.989181694715743
License: http://creativecommons.org/licenses/by/4.0/
Abstract: After a large language model (LLM) is deployed on edge devices, it is desirable for these devices to learn from user-generated conversation data to generate user-specific and personalized responses in real-time. However, user-generated data usually contains sensitive and private information, and uploading such data to the cloud for annotation is not preferred if not prohibited. While it is possible to obtain annotation locally by directly asking users to provide preferred responses, such annotations have to be sparse to not affect user experience. In addition, the storage of edge devices is usually too limited to enable large-scale fine-tuning with full user-generated data. It remains an open question how to enable on-device LLM personalization, considering sparse annotation and limited on-device storage. In this paper, we propose a novel framework to select and store the most representative data online in a self-supervised way. Such data has a small memory footprint and allows infrequent requests of user annotations for further fine-tuning. To enhance fine-tuning quality, multiple semantically similar pairs of question texts and expected responses are generated using the LLM. Our experiments show that the proposed framework achieves the best user-specific content-generating capability (accuracy) and fine-tuning speed (performance) compared with vanilla baselines. To the best of our knowledge, this is the very first on-device LLM personalization framework.
Abstract（参考訳）: 大規模言語モデル(LLM)がエッジデバイスにデプロイされた後、ユーザ生成会話データから学習し、ユーザ固有のパーソナライズされた応答をリアルタイムで生成することが望ましい。しかし、ユーザ生成データは通常機密情報や個人情報が含まれており、アノテーションのためにクラウドにデータをアップロードすることは禁止されない。アノテーションをローカルに取得するには,ユーザの好みの回答を直接求めればよいが,そのようなアノテーションはユーザエクスペリエンスに影響を与えることはない。さらに、エッジデバイスのストレージは、通常、完全なユーザー生成データで大規模に微調整できるように制限されすぎます。少ないアノテーションと限られたオンデバイスストレージを考慮して、オンデバイス LLM のパーソナライズを有効にする方法は未解決のままである。本稿では,最も代表的なデータを自己管理方式でオンラインに選択・保存する新しい枠組みを提案する。このようなデータはメモリフットプリントが小さく、ユーザアノテーションの頻繁なリクエストでさらなる微調整が可能になる。微調整品質を高めるため、LLMを用いて複数の意味的に類似した質問文と期待応答を生成する。実験の結果,提案フレームワークは,バニラベースラインと比較して,ユーザ固有のコンテンツ生成能力(精度)と微調整速度(性能)に優れていた。私たちの知る限りでは、これが初めてのオンデバイスLDMパーソナライズフレームワークです。

関連論文リスト

Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文参考訳（メタデータ） (2026-02-12T20:41:22Z)
Reasoning-Based Personalized Generation for Users with Sparse Data [120.94029850012045]
スパースコンテキスト下でパーソナライズされたテキスト生成を強化する新しいフレームワークであるGraSPerを紹介する。 GraSPerは、ユーザが将来的に対話する可能性のあるアイテムを予測することで、ユーザコンテキストを初めて強化する。推論アライメントによって、これらのインタラクションのためのテキストを生成して、拡張されたコンテキストを豊かにする。最終的に、実際の履歴と合成履歴の両方に基づいて、パーソナライズされた出力を生成する。
論文参考訳（メタデータ） (2026-01-31T01:54:23Z)
Controlling What You Share: Assessing Language Model Adherence to Privacy Preferences [73.5779077857545]
ローカルモデルがこれらの命令を使ってクエリを書き換えるフレームワークを構築します。軽量なローカルLCMを用いた実験では、微調整後、はるかに大きなゼロショットモデルの性能を著しく上回った。同時に、このシステムは、ユーザー定義プライバシの好みをよりよく理解したモデルの必要性を強調し、ユーザー指示に完全に準拠するという課題に直面している。
論文参考訳（メタデータ） (2025-07-07T18:22:55Z)
CoSteer: Collaborative Decoding-Time Personalization via Local Delta Steering [68.91862701376155]
CoSteerは、ローカライズされたデルタステアリングを通じてデコード時のパーソナライズを可能にする、新しいコラボレーティブフレームワークである。トークンレベルの最適化をオンライン学習問題として定式化し、ローカルデルタベクトルがリモートLLMのロジットを動的に調整する。このアプローチは、生のデータや中間ベクトルではなく、最後のステアリングトークンのみを送信することで、プライバシを保護します。
論文参考訳（メタデータ） (2025-07-07T08:32:29Z)
Embedding-to-Prefix: Parameter-Efficient Personalization for Pre-Trained Large Language Models [6.445337954429245]
大規模言語モデル(LLM)は、文脈に関連のあるコンテンツを生成するのに優れている。本研究では,LLMの隠れ表現空間にコンテキスト埋め込みを注入するパラメータ効率の高いEmbeding-to-Prefix(E2P)を提案する。我々は2つの公開データセットとプロダクション環境でのE2Pの評価を行い、ペルソナチャットでの対話パーソナライゼーション、PENSにおける文脈的見出し生成、音楽とポッドキャストの大規模パーソナライゼーションについて検討した。
論文参考訳（メタデータ） (2025-05-16T13:34:25Z)
Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文参考訳（メタデータ） (2025-05-02T04:01:31Z)
Never Start from Scratch: Expediting On-Device LLM Personalization via Explainable Model Selection [5.174560360759384]
大規模言語モデル(LLM)のパーソナライズは,異なるモバイルユーザのニーズを満たすために,実践的なアプリケーションにおいて重要である。提案するXPerTは,このようなパーソナライズされたLLMの適切な選択を,どのように微調整されているかの説明可能性に基づいて保証する手法である。実験の結果,XPerTはデバイス上でのLCMパーソナライズコストを83%削減し,データ効率を51%向上した。
論文参考訳（メタデータ） (2025-04-15T17:38:06Z)
Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。 DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-03-04T09:53:26Z)
Personalized Language Model Learning on Text Data Without User Identifiers [79.36212347601223]
ユーザの埋め込みを動的に生成するために,各モバイルデバイスがユーザ固有の分布を維持することを提案する。クラウドがアップロードされた埋め込みを通じてユーザを追跡するのを防ぐために、異なるユーザのローカルディストリビューションは、線形依存空間から導出されるべきである。パブリックデータセットとインダストリアルデータセットの両方の評価では、匿名ユーザ埋め込みの導入による精度の大幅な向上が示されている。
論文参考訳（メタデータ） (2025-01-10T15:46:19Z)
Optimizing Data Delivery: Insights from User Preferences on Visuals, Tables, and Text [59.68239795065175]
ユーザが質問を提示するユーザスタディを実施し、何を見たいのかを尋ねます。ユーザの個人的特性が、彼らが好むデータ出力に影響を与えることを確認するために、このデータを使用します。
論文参考訳（メタデータ） (2024-11-12T00:24:31Z)
PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文参考訳（メタデータ） (2024-09-30T13:55:42Z)
Scalable Dynamic Embedding Size Search for Streaming Recommendation [54.28404337601801]
実世界のレコメンデーションシステムは、しばしばストリーミングレコメンデーションシナリオで機能する。ユーザやアイテムの数は増加を続けており、かなりのストレージリソース消費につながっている。 SCALLと呼ばれるストリーミングレコメンデーション用のLightweight Embeddingsを学び、ユーザ/イテムの埋め込みサイズを適応的に調整できる。
論文参考訳（メタデータ） (2024-07-22T06:37:24Z)
Crayon: Customized On-Device LLM via Instant Adapter Blending and Edge-Server Hybrid Inference [20.666893617591136]
オンデバイス LLM カスタマイズのための新しいアプローチである Crayon を提案する。我々は,より要求の多いクエリや非カスタマイズタスクをサーバ上のより大きな,より有能なLDMに確実に割り当てるデバイスサーバハイブリッド推論戦略を開発する。
論文参考訳（メタデータ） (2024-06-11T07:00:08Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Partial Federated Learning [26.357723187375665]
Federated Learning(FL)は、エッジデバイスに制約されたユーザデータに基づいて機械学習モデルをトレーニングする一般的なアルゴリズムである。そこで我々は、機械学習モデルに、データのサブセットをサーバに提供可能なデータを用いてトレーニングする、Partial Federated Learning (PartialFL) と呼ばれる新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-03T21:04:36Z)
Modeling Dynamic User Preference via Dictionary Learning for Sequential Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文参考訳（メタデータ） (2022-04-02T03:23:46Z)
SemiPFL: Personalized Semi-Supervised Federated Learning Framework for Edge Intelligence [15.590672649077817]
本稿では,ラベル付きデータセットやラベル付きデータセットが限定されていないエッジユーザを支援するための,半教師付きフェデレーション学習(SemiPFL)フレームワークを提案する。この作業では、エッジユーザが協力してサーバ内のハイパーネットワークをトレーニングし、ユーザ毎にパーソナライズされたオートエンコーダを生成する。エッジユーザから更新を受けた後、サーバは各ユーザに対してベースモデルのセットを生成し、ユーザが自身のラベル付きデータセットを使用してローカルに集約する。
論文参考訳（メタデータ） (2022-03-15T18:09:15Z)
Generating private data with user customization [9.415164800448853]
モバイルデバイスは大量のデータを生成、保存し、機械学習モデルを強化することができる。しかし、このデータには、データのリリースを防止するデータ所有者特有のプライベート情報が含まれている可能性がある。有用な情報を保持しつつ、ユーザ固有のプライベート情報とデータとの相関を小さくしたい。
論文参考訳（メタデータ） (2020-12-02T19:13:58Z)
Federated Learning of User Authentication Models [69.93965074814292]
機械学習モデルのプライバシー保護のためのフレームワークであるFederated User Authentication (FedUA)を提案する。 FedUAは、フェデレートされた学習フレームワークを採用して、ユーザが生の入力を共有することなく、共同でモデルをトレーニングできるようにする。提案手法はプライバシ保護であり,多数のユーザに対してスケーラブルであることを示し,出力層を変更することなく,新たなユーザをトレーニングに追加できるようにした。
論文参考訳（メタデータ） (2020-07-09T08:04:38Z)
Unsupervised Model Personalization while Preserving Privacy and Scalability: An Open Problem [55.21502268698577]
本研究では,非教師なしモデルパーソナライゼーションの課題について検討する。この問題を探求するための新しいDual User-Adaptation Framework(DUA)を提供する。このフレームワークは、サーバ上のモデルパーソナライズとユーザデバイス上のローカルデータ正規化に柔軟にユーザ適応を分散させる。
論文参考訳（メタデータ） (2020-03-30T09:35:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。