論文の概要: RPM: Reasoning-Level Personalization for Black-Box Large Language Models
- arxiv url: http://arxiv.org/abs/2505.21082v4
- Date: Wed, 15 Oct 2025 08:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.60415
- Title: RPM: Reasoning-Level Personalization for Black-Box Large Language Models
- Title(参考訳): RPM:ブラックボックス大言語モデルの推論レベルパーソナライズ
- Authors: Jieyong Kim, Tongyoung Kim, Soojin Yoon, Jaehyung Kim, Dongha Lee,
- Abstract要約: この研究は、推論レベルのパーソナライゼーションを新しいパラダイムとして導入する。
RPMは、ユーザの振舞いのパターンから構築された構造化理性を用いて、モデルの推論プロセスを導くために設計された最初の体系的なフレームワークである。
- 参考スコア(独自算出の注目度): 13.102489006219548
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While black-box large language models are widely deployed, they produce generic outputs that overlook individual user preferences. Current personalization methods are fundamentally limited to response-level personalization; they only match final outputs, failing to model the underlying reasoning that connects user behavior to responses. To address this, this work introduces reasoning-level personalization as a new paradigm and proposes RPM, the first systematic framework designed to guide the model's reasoning process using structured rationales constructed from patterns in a user's behavior. RPM constructs a structured model of user behavior-built from response-influential features and statistical factors-to create personalized reasoning paths and retrieve beneficial examples for guiding inference through a feature-based retrieval mechanism. Extensive experiments across four diverse tasks demonstrate that RPM consistently outperforms existing response-level methods while simultaneously enhancing both personalization performance and interpretability, providing a promising direction for black-box LLM personalization.
- Abstract(参考訳): ブラックボックスの大規模言語モデルは広くデプロイされているが、個々のユーザの好みを見渡すような汎用的なアウトプットを生成する。
現在のパーソナライズ手法は、応答レベルのパーソナライズに基本的に制限されており、最終的な出力と一致し、ユーザの振る舞いと応答を結びつける基本的な推論をモデル化できない。
そこで本研究では、推論レベルのパーソナライゼーションを新たなパラダイムとして導入し、ユーザの行動パターンから構築された構造化論理を用いたモデル推論プロセスの導出を目的とした、最初の体系的フレームワークであるRPMを提案する。
RPMは、応答インフルエンタリな特徴と統計的要因から構築されたユーザ行動の構造化モデルを構築し、パーソナライズされた推論パスを作成し、特徴に基づく検索機構を通じて推論を導くための有益な例を検索する。
4つのタスクにわたる広範囲な実験により、RPMは、パーソナライズ性能と解釈性の両方を同時に向上しつつ、既存の応答レベルメソッドを一貫して上回り、ブラックボックスLSMパーソナライズに有望な方向性を提供する。
関連論文リスト
- Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。
パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。
我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文 参考訳(メタデータ) (2026-02-12T20:41:22Z) - P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling [66.55381105691818]
P-GenRM(Personalized Generative Reward Model)を提案する。
P-GenRMは、選好信号を適応的なペルソナとスコアリングルーリックを導出する構造化評価チェーンに変換する。
さらにユーザをユーザプロトタイプにクラスタリングし、二重粒度スケーリングメカニズムを導入している。
論文 参考訳(メタデータ) (2026-02-12T16:07:22Z) - One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment [55.86333374784959]
これらの制約に対処するには、データの適合からユーザの好みを学習し、嗜好適応のプロセスを学ぶためのパラダイムシフトが必要である、と我々は主張する。
メタ学習問題としてパーソナライズされた報酬モデルを変更するメタリワードモデリング(MRM)を提案する。
MRMはパーソナライズを強化し、ユーザの堅牢性を向上し、ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-01-26T17:55:52Z) - Unveiling Inference Scaling for Difference-Aware User Modeling in LLM Personalization [8.34180795290891]
差分対応推論パーソナライゼーションは、推論スケーリングを活用してパーソナライゼーションを強化することで、差分抽出機構を再構築するフレームワークである。
LLMは、関連する特徴次元を自律的に識別し、構造化された定義と記述を生成する。
論文 参考訳(メタデータ) (2025-11-19T12:35:40Z) - Reflective Personalization Optimization: A Post-hoc Rewriting Framework for Black-Box Large Language Models [16.152962349146275]
本稿では、コンテンツ生成をアライメントから切り離してパーソナライズパラダイムを再定義するフレームワークであるリフレクティブパーソナライズ最適化(RPO)を提案する。
RPOは2つの異なる段階で動作する: まず、ベースモデルが高品質で汎用的な応答を生成し、その後、外部反射モジュールがこの出力を明示的に書き直してユーザの好みに合わせる。
LaMPベンチマークの総合的な実験により、RPOはパーソナライゼーションからコンテンツ生成を分離することで、最先端のベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-11-07T14:48:49Z) - PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization [4.624026598342624]
検索したユーザプロファイルを明示的に推論するために,LLMをトレーニングする強化学習フレームワークであるPrLMを提案する。
PrLMは、注釈付き推論パスを必要とせずに、ユーザの応答から効果的に学習する。
3つのパーソナライズされたテキスト生成データセットの実験は、PrLMが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-08-10T13:37:26Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment [35.68913976348608]
本稿では,対話を通じてユーザプロファイルを反復的に推測・精査するRLPAフレームワークについて紹介する。
我々はQwen-2.5-3B-インストラクトを微調整することでRLPAをインスタンス化し、Qwen-RLPAはパーソナライズされた対話における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-21T12:38:36Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。
我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。
その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。
DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。
実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-04T09:53:26Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - ULMRec: User-centric Large Language Model for Sequential Recommendation [16.494996929730927]
ユーザがカスタマイズした好みを大規模言語モデルに統合するフレームワークであるULMRecを提案する。
2つの公開データセットに対する大規模な実験は、ULMRecが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-07T05:37:00Z) - LLMs + Persona-Plug = Personalized LLMs [41.60364110693824]
パーソナライゼーションは多くの言語タスクやアプリケーションにおいて重要な役割を担っている。
これにより、大きな言語モデル(LLM)を適用して、ユーザの好みに合わせてカスタマイズされたアウトプットを生成する、さまざまなパーソナライズされたアプローチが開発された。
そこで我々は,LLMモデルを提案する。軽量なプラグインユーザ埋め込みモジュールを用いて,過去の状況をすべてモデル化し,個人毎のユーザ固有の埋め込みを構築する。
論文 参考訳(メタデータ) (2024-09-18T11:54:45Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。
これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。
特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T22:10:52Z) - Personalized Large Language Models [1.0881867638866944]
本稿では,大規模言語モデル(LLM)のパーソナライズ手法について検討する。
その結果、パーソナライズされた微調整は、非パーソナライズされたモデルと比較してモデル推論を改善することが示された。
感情認識とヘイトスピーチ検出のためのデータセットの実験は、パーソナライズされた方法で一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-02-14T15:55:30Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。