論文の概要: CARD: Cluster-level Adaptation with Reward-guided Decoding for Personalized Text Generation
- arxiv url: http://arxiv.org/abs/2601.06352v1
- Date: Fri, 09 Jan 2026 23:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.767474
- Title: CARD: Cluster-level Adaptation with Reward-guided Decoding for Personalized Text Generation
- Title(参考訳): CARD:パーソナライズされたテキスト生成のためのReward-guided Decodingによるクラスタレベルの適応
- Authors: Yutong Song, Jiang Wu, Weijia Zhang, Chengze Shen, Shaofan Yuan, Weitao Lu, Jian Wang, Amir Rahmani, Nikil Dutt, Yu Wang,
- Abstract要約: CARDは、進歩的な洗練を通じて効果的なパーソナライズを実現する階層的な枠組みである。
本稿では,ユーザによるテキストとクラスタレベルの世代を対比する暗黙の選好学習機構を提案する。
推論時に、CARDは、軽量なユーザ嗜好ベクトルとローランクロジット補正を通じて、デコーディング専用のパーソナライズを注入する。
- 参考スコア(独自算出の注目度): 12.287030400852231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting large language models to individual users remains challenging due to the tension between fine-grained personalization and scalable deployment. We present CARD, a hierarchical framework that achieves effective personalization through progressive refinement. CARD first clusters users according to shared stylistic patterns and learns cluster-specific LoRA adapters, enabling robust generalization and strong low-resource performance. To capture individual differences within each cluster, we propose an implicit preference learning mechanism that contrasts user-authored text with cluster-level generations, allowing the model to infer user-specific style preferences without manual annotation. At inference time, CARD injects personalization exclusively at decoding via lightweight user preference vectors and low-rank logit corrections, while keeping the base model frozen. Experiments on the LaMP and LongLaMP benchmarks show that CARD achieves competitive or superior generation quality compared to state-of-the-art baselines, while significantly improving efficiency and scalability for practical personalized text generation.
- Abstract(参考訳): パーソナライゼーションの微粒化とスケーラブルなデプロイメントの緊張が原因で、大きな言語モデルを個々のユーザに適用することは依然として困難である。
本稿では,進歩的洗練を通じて効果的なパーソナライズを実現する階層的枠組みであるCARDを紹介する。
CARDは、ユーザを共有スタイリスティックパターンに従ってクラスタ化し、クラスタ固有のLoRAアダプタを学び、堅牢な一般化と強力な低リソースパフォーマンスを実現する。
そこで本研究では,各クラスタ内の個人差を抽出するために,ユーザが作成したテキストとクラスタレベルの世代を対比する暗黙の選好学習機構を提案する。
推論時に、CARDは、ベースモデルを凍結したまま、軽量なユーザ好みベクトルとローランクのロジット補正を通じて、デコーディング専用のパーソナライズを注入する。
LaMPとLongLaMPベンチマークの実験では、CARDは最先端のベースラインに比べて競争力や優れた世代品質を実現し、実用的なパーソナライズされたテキスト生成の効率とスケーラビリティを著しく向上している。
関連論文リスト
- Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。
パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。
我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文 参考訳(メタデータ) (2026-02-12T20:41:22Z) - CURP: Codebook-based Continuous User Representation for Personalized Generation with LLMs [60.867541073274715]
双方向ユーザエンコーダと離散プロトタイプコードブックを用いて,多次元ユーザ特性を抽出する新しいフレームワークCURPを提案する。
この設計により、少数のトレーニング可能なパラメータでプラグアンドプレイのパーソナライズが可能となる。
CURPは,強いベースラインに比べて優れた性能と一般化を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-31T14:13:06Z) - One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment [55.86333374784959]
これらの制約に対処するには、データの適合からユーザの好みを学習し、嗜好適応のプロセスを学ぶためのパラダイムシフトが必要である、と我々は主張する。
メタ学習問題としてパーソナライズされた報酬モデルを変更するメタリワードモデリング(MRM)を提案する。
MRMはパーソナライズを強化し、ユーザの堅牢性を向上し、ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-01-26T17:55:52Z) - Reflective Personalization Optimization: A Post-hoc Rewriting Framework for Black-Box Large Language Models [16.152962349146275]
本稿では、コンテンツ生成をアライメントから切り離してパーソナライズパラダイムを再定義するフレームワークであるリフレクティブパーソナライズ最適化(RPO)を提案する。
RPOは2つの異なる段階で動作する: まず、ベースモデルが高品質で汎用的な応答を生成し、その後、外部反射モジュールがこの出力を明示的に書き直してユーザの好みに合わせる。
LaMPベンチマークの総合的な実験により、RPOはパーソナライゼーションからコンテンツ生成を分離することで、最先端のベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-11-07T14:48:49Z) - POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文 参考訳(メタデータ) (2025-04-20T01:16:24Z) - Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。
DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。
実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-04T09:53:26Z) - Personalized Graph-Based Retrieval for Large Language Models [51.7278897841697]
ユーザ中心の知識グラフを利用してパーソナライゼーションを強化するフレームワークを提案する。
構造化されたユーザ知識を直接検索プロセスに統合し、ユーザ関連コンテキストにプロンプトを拡大することにより、PGraphはコンテキスト理解と出力品質を向上させる。
また,ユーザ履歴が不足あるいは利用できない実環境において,パーソナライズされたテキスト生成タスクを評価するために設計された,パーソナライズドグラフベースのテキスト生成ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-04T01:46:49Z) - PAD: Personalized Alignment of LLMs at Decoding-Time [10.347782385286582]
本稿では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークを提案する。
パーソナライズド・アライメント・アライメント・アライメント・アライメント・アット・デコーディング・タイム(PAD)フレームワークは、テキスト生成プロセスをパーソナライズされた好みから切り離す。
PADは、既存のトレーニングベースのアライメント手法を、多様な嗜好と整合するという点で上回るだけでなく、トレーニング中に見つからない嗜好に対する顕著な一般化性も示している。
論文 参考訳(メタデータ) (2024-10-05T08:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。