論文の概要: Personalized LLM Decoding via Contrasting Personal Preference
- arxiv url: http://arxiv.org/abs/2506.12109v1
- Date: Fri, 13 Jun 2025 09:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.199456
- Title: Personalized LLM Decoding via Contrasting Personal Preference
- Title(参考訳): 個人選好の対比によるパーソナライズLDMデコーディング
- Authors: Hyungjune Bu, Chanjoo Jung, Minjae Kang, Jaehyung Kim,
- Abstract要約: 本研究では,パラメータ効率のよい微細チューニング(PEFT)をユーザ固有のデータに適用した新しいデコード時間手法CoPeを提案する。
私たちの中核となる考え方は、各ユーザの暗黙の報酬信号の最大化によって、特にパーソナライズのために報酬誘導復号を利用することです。
実験の結果,CoPeは高い性能を示し,ROUGE-Lでは平均10.57%のパーソナライゼーションが向上した。
- 参考スコア(独自算出の注目度): 8.469329222500726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are progressively deployed in various real-world applications, personalization of LLMs has become increasingly important. While various approaches to LLM personalization such as prompt-based and training-based methods have been actively explored, the development of effective decoding-time algorithms remains largely overlooked, despite their demonstrated potential. In this paper, we propose CoPe (Contrasting Personal Preference), a novel decoding-time approach applied after performing parameter-efficient fine-tuning (PEFT) on user-specific data. Our core idea is to leverage reward-guided decoding specifically for personalization by maximizing each user's implicit reward signal. We evaluate CoPe across five open-ended personalized text generation tasks. Our empirical results demonstrate that CoPe achieves strong performance, improving personalization by an average of 10.57% in ROUGE-L, without relying on external reward models or additional training procedures.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々な現実世界のアプリケーションに徐々に展開されるにつれて、LLMのパーソナライズがますます重要になっている。
LLMのパーソナライズへの様々なアプローチ、例えばプロンプトベースやトレーニングベースの手法が積極的に検討されているが、効果的な復号時間アルゴリズムの開発は、その可能性にもかかわらず、ほとんど見過ごされ続けている。
本稿では,パラメータ効率の良い微細チューニング(PEFT)をユーザ固有のデータに適用した新しい復号時間手法であるCoPe(Contrasting Personal Preference)を提案する。
私たちの中核となる考え方は、各ユーザの暗黙の報酬信号の最大化によって、特にパーソナライズのために報酬誘導復号を利用することです。
オープン化された5つのパーソナライズされたテキスト生成タスクのCoPeを評価する。
実験の結果,CoPeは高い性能を示し,ROUGE-Lでは平均10.57%のパーソナライゼーション向上を実現した。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Personalized Language Models via Privacy-Preserving Evolutionary Model Merging [57.161917758405465]
大規模言語モデル(LLM)におけるパーソナライゼーションは、個々のユーザまたはユーザグループの好みに合わせてモデルをカスタマイズすることを目指している。
進化的アルゴリズム(PriME)によるプライバシ保護モデルマージを提案する。
PriMEは、ユーザのプライバシを保護しながら、タスク固有のメトリクスを直接最適化するために、勾配のないメソッドを使用している。
論文 参考訳(メタデータ) (2025-03-23T09:46:07Z) - Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。
DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。
実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-04T09:53:26Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - PAD: Personalized Alignment of LLMs at Decoding-Time [10.347782385286582]
本稿では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークを提案する。
パーソナライズド・アライメント・アライメント・アライメント・アライメント・アット・デコーディング・タイム(PAD)フレームワークは、テキスト生成プロセスをパーソナライズされた好みから切り離す。
PADは、既存のトレーニングベースのアライメント手法を、多様な嗜好と整合するという点で上回るだけでなく、トレーニング中に見つからない嗜好に対する顕著な一般化性も示している。
論文 参考訳(メタデータ) (2024-10-05T08:00:55Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。