論文の概要: Meta-Learning for Cold-Start Personalization in Prompt-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2507.16672v1
- Date: Tue, 22 Jul 2025 15:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.169567
- Title: Meta-Learning for Cold-Start Personalization in Prompt-Tuned LLMs
- Title(参考訳): プロンプト調整LDMにおけるコールドスタートパーソナライズのためのメタラーニング
- Authors: Yushang Zhao, Huijie Shen, Dannier Li, Lu Chang, Chengrui Zhou, Yinuo Yang,
- Abstract要約: 本稿では,パラメータ効率のよいプロンプトチューニングを行うためのメタラーニングフレームワークを提案する。
MovieLens-1M、Amazon Reviews、Recboleでは、当社の適応モデルは、NDCG@10、HR@10、MRRの強力なベースラインよりも優れています。
275msの適応率により、金融システムのリアルタイムリスクプロファイリングが成功している。
- 参考スコア(独自算出の注目度): 0.8246494848934447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative, explainable, and flexible recommender systems, derived using Large Language Models (LLM) are promising and poorly adapted to the cold-start user situation, where there is little to no history of interaction. The current solutions i.e. supervised fine-tuning and collaborative filtering are dense-user-item focused and would be expensive to maintain and update. This paper introduces a meta-learning framework, that can be used to perform parameter-efficient prompt-tuning, to effectively personalize LLM-based recommender systems quickly at cold-start. The model learns soft prompt embeddings with first-order (Reptile) and second-order (MAML) optimization by treating each of the users as the tasks. As augmentations to the input tokens, these learnable vectors are the differentiable control variables that represent user behavioral priors. The prompts are meta-optimized through episodic sampling, inner-loop adaptation, and outer-loop generalization. On MovieLens-1M, Amazon Reviews, and Recbole, we can see that our adaptive model outperforms strong baselines in NDCG@10, HR@10, and MRR, and it runs in real-time (i.e., below 300 ms) on consumer GPUs. Zero-history personalization is also supported by this scalable solution, and its 275 ms rate of adaptation allows successful real-time risk profiling of financial systems by shortening detection latency and improving payment network stability. Crucially, the 275 ms adaptation capability can enable real-time risk profiling for financial institutions, reducing systemic vulnerability detection latency significantly versus traditional compliance checks. By preventing contagion in payment networks (e.g., Fedwire), the framework strengthens national financial infrastructure resilience.
- Abstract(参考訳): LLM(Large Language Models)から派生した生成可能で説明可能なフレキシブルなレコメンデータシステムは、インタラクションの履歴がほとんど、あるいは全くないコールドスタートのユーザ状況に十分に適応していない。
現在のソリューション、すなわち教師付き微調整と協調的なフィルタリングは、密集したユーザ中心であり、メンテナンスと更新に費用がかかる。
本稿では,パラメータ効率のよいプロンプトチューニングを実現するメタラーニングフレームワークを提案し,コールドスタート時にLDMベースのレコメンダシステムを効果的にパーソナライズする。
モデルでは,各ユーザをタスクとして扱うことで,1次(Reptile)と2次(MAML)の最適化によるソフトプロンプト埋め込みを学習する。
入力トークンの拡張として、これらの学習可能なベクタは、ユーザの振る舞いの事前を表す、微分可能な制御変数である。
プロンプトは、エピソードサンプリング、インナーループ適応、外ループ一般化によってメタ最適化される。
MovieLens-1M、Amazon Reviews、Recboleでは、当社のアダプティブモデルがNDCG@10、HR@10、MRRの強力なベースラインよりも優れており、コンシューマGPU上でリアルタイム(すなわち300ms以下)で動作することが分かります。
ゼロ・ヒストリーのパーソナライズもこのスケーラブルなソリューションによってサポートされており、275msの適応率により、検出遅延を短縮し、支払いネットワークの安定性を向上させることで、金融システムのリアルタイムリスクプロファイリングを成功させることができる。
重要なことに、275msの適応能力は金融機関のリアルタイムリスクプロファイリングを可能にし、従来のコンプライアンスチェックに比べてシステム上の脆弱性検出のレイテンシを著しく低減することができる。
支払いネットワーク(例えばFedwire)の感染を防ぐことにより、このフレームワークは国の金融インフラのレジリエンスを強化する。
関連論文リスト
- PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。
PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。
我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文 参考訳(メタデータ) (2025-07-26T21:46:32Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Semantic-Preserving Adversarial Attacks on LLMs: An Adaptive Greedy Binary Search Approach [15.658579092368981]
大規模言語モデル(LLM)は、ユーザ入力を洗練させ、応答精度を向上させるために、グラフィカルユーザインタフェース(GUI)における自動プロンプト工学に依存している。
本稿では, セマンティック安定性を維持しつつ, 共通的なプロンプト最適化機構をシミュレートするアダプティブ・グレディ・バイナリ・サーチ(AGBS)手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:41:06Z) - Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [66.54211199959298]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。
MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。
視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文 参考訳(メタデータ) (2025-05-20T03:59:05Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - FinLoRA: Finetuning Quantized Financial Large Language Models Using Low-Rank Adaptation [13.815905522616838]
大規模言語モデル(LLM)の微調整は、財務上のタスクにおいて顕著なパフォーマンスを示している。
しかし、FinLLMの微調整はGPUメモリの制約や長い入力シーケンスといった問題を引き起こす。
我々は、低ランク行列分解と量子化技術を利用するFinLLMを微調整するために、量子化低ランク適応(QLoRA)を用いる。
論文 参考訳(メタデータ) (2024-12-16T02:05:49Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - GenUP: Generative User Profilers as In-Context Learners for Next POI Recommender Systems [8.789624590579903]
POI(Point-of-Interest)レコメンデーションシステムは、透明性、解釈可能性、精査性に欠けることが多い。
既存の手法は、他のユーザーからの類似の軌跡を活用することで、この問題に対処することが多い。
本稿では,LBSNの大規模チェックインから自然言語(NL)ユーザプロファイルを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-28T00:39:22Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。