論文の概要: SPRInG: Continual LLM Personalization via Selective Parametric Adaptation and Retrieval-Interpolated Generation
- arxiv url: http://arxiv.org/abs/2601.09974v1
- Date: Thu, 15 Jan 2026 01:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.939206
- Title: SPRInG: Continual LLM Personalization via Selective Parametric Adaptation and Retrieval-Interpolated Generation
- Title(参考訳): SPRInG:選択パラメトリック適応と検索補間生成による連続LLMパーソナライゼーション
- Authors: Seoyeon Kim, Jaehyung Kim,
- Abstract要約: SPRInGは、効果的な継続パーソナライズを目的とした、新しい半パラメトリックフレームワークである。
訓練中、SPRInGはドリフト駆動の選択的適応を採用しており、これは確率に基づくスコアリング機能を用いて高能率相互作用を識別する。
長期のパーソナライズされた生成ベンチマークの実験は、SPRInGが既存のベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 11.253466187411524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalizing Large Language Models typically relies on static retrieval or one-time adaptation, assuming user preferences remain invariant over time. However, real-world interactions are dynamic, where user interests continuously evolve, posing a challenge for models to adapt to preference drift without catastrophic forgetting. Standard continual learning approaches often struggle in this context, as they indiscriminately update on noisy interaction streams, failing to distinguish genuine preference shifts from transient contexts. To address this, we introduce SPRInG, a novel semi-parametric framework designed for effective continual personalization. During training, SPRInG employs drift-driven selective adaptation, which utilizes a likelihood-based scoring function to identify high-novelty interactions. This allows the model to selectively update the user-specific adapter on drift signals while preserving hard-to-learn residuals in a replay buffer. During inference, we apply strict relevance gating and fuse parametric knowledge with retrieved history via logit interpolation. Experiments on the long-form personalized generation benchmark demonstrate that SPRInG outperforms existing baselines, validating its robustness for real-world continual personalization.
- Abstract(参考訳): 大規模言語モデルのパーソナライズは通常、静的検索やワンタイム適応に依存し、ユーザの好みが時間とともに不変であると仮定する。
しかし、現実世界のインタラクションは動的であり、ユーザの関心は継続的に進化し、悲惨な忘れをせずに、モデルが好みの漂流に適応する上での課題となる。
標準的な連続学習アプローチは、ノイズの多い相互作用ストリームを無差別に更新し、過渡的なコンテキストから真の好みシフトを区別できないため、この文脈でしばしば苦労する。
そこで我々はSPRInGという,効果的な連続的パーソナライゼーションを目的とした新しい半パラメトリックフレームワークを紹介した。
訓練中、SPRInGはドリフト駆動の選択的適応を採用しており、これは確率に基づくスコアリング機能を用いて高能率相互作用を識別する。
これにより、リプレイバッファ内のハード・トゥ・ラーン残量を保持しながら、ドリフト信号のユーザ固有のアダプタを選択的に更新することができる。
推測中、厳密な関連性ゲーティングとヒューズ・パラメトリック知識をロジット補間による検索履歴に適用する。
長期パーソナライズされた生成ベンチマークの実験では、SPRInGは既存のベースラインよりも優れており、実世界の連続的なパーソナライゼーションの堅牢性を検証する。
関連論文リスト
- POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - DRAN: A Distribution and Relation Adaptive Network for Spatio-temporal Forecasting [19.064628208136273]
本稿では,動的に適応し,時間とともに変化に適応できる分布関係適応ネットワーク(DRAN)を提案する。
正規化非正規化プロセスを可能にする空間因子学習モジュール(SFL)を開発した。
本手法は,気象予報や交通流予測タスクにおける最先端手法より優れている。
論文 参考訳(メタデータ) (2025-04-02T09:18:43Z) - FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors [50.131271229165165]
Federated Learning (FL)は、分散機械学習のための有望なフレームワークとして登場した。
ユーザの行動、好み、デバイス特性の相違から生じるデータの異質性は、連合学習にとって重要な課題である。
本稿では,学習過程におけるクライアントベクトルに基づくアダプティブ重み付けを適応的に調整する手法であるAdaptive Weight Aggregation (FedAWA)を提案する。
論文 参考訳(メタデータ) (2025-03-20T04:49:40Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Lifelong Unsupervised Domain Adaptive Person Re-identification with
Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。
これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。
我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文 参考訳(メタデータ) (2021-12-13T13:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。