論文の概要: PET: Preference Evolution Tracking with LLM-Generated Explainable Distribution
- arxiv url: http://arxiv.org/abs/2509.24189v1
- Date: Mon, 29 Sep 2025 02:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.688783
- Title: PET: Preference Evolution Tracking with LLM-Generated Explainable Distribution
- Title(参考訳): PET: LLM生成説明可能分布を用いた参照進化追跡
- Authors: Luyang Zhang, Siyuan Peng, Jialu Wang, Shichao Zhu, Beibei Li, Zhongcun Wang, Guangmou Pan, Yan Li, Song Yang,
- Abstract要約: 一般的なプラクティスは、好まれる項目のランク付けリストを直接生成することで、ユーザの次のアクションを予測するために、大規模言語モデルを使用することである。
短期予測には有効であるが、エンドツーエンド生成パラダイムは本質的にパーソナライゼーションを制限している。
本稿では,選好クラスタの安定かつ解釈可能な格子上での動的確率分布を推定するフレームワークであるPreference Evolution Tracking (PET)を提案する。
- 参考スコア(独自算出の注目度): 13.402625138386766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how user preference evolves over time is a fundamental challenge central to modern digital ecosystems, for which Large Language Models (LLMs) are an increasingly prominent and popular approach due to their ability to comprehend the rich semantic context within behavioral data. A common practice is to use LLMs to predict a user's next action by directly generating a ranked list of preferred items. Although effective for short-term prediction, the end-to-end generation paradigm inherently limits personalization. Its opaque decision-making process obscures holistic user profiling and exacerbates popularity bias. To address these limitations, we propose Preference Evolution Tracking (PET), a framework that reframes the task as inferring a dynamic probability distribution over a stable and interpretable lattice of preference clusters. By applying logit-probing and generative classification techniques, PET infers a user's preference as a probability distribution, enabling transparent preference learning. On public benchmarks (Yelp, MovieLens), PET improves ranking quality by up to 40% in NDCG over direct generation baselines. On a large-scale, real-world dataset from a short-video platform, it excels at ranking long-tail contents, significantly outperforming a SOTA production model by 7 times in the NDCG score. Ultimately, PET transforms the user profile model from direct preference list generation to a transparent distributional preference mapping, paving the way for more explainable, fair, and diverse personalization systems.
- Abstract(参考訳): ユーザの好みが時間とともにどのように進化していくかを理解することは、現代のデジタルエコシステムの中心となる基本的な課題である。
一般的なプラクティスは、LLMを使ってユーザの次のアクションを予測し、好まれる項目のランクリストを直接生成することである。
短期予測には有効であるが、エンドツーエンド生成パラダイムは本質的にパーソナライゼーションを制限している。
その不透明な意思決定プロセスは、全体的なユーザープロファイリングを曖昧にし、人気バイアスを悪化させる。
これらの制約に対処するため,提案するフレームワークであるPreference Evolution Tracking (PET)を提案する。
論理探索および生成分類技術を適用することにより、PETはユーザの嗜好を確率分布として推定し、透過的な嗜好学習を可能にする。
公開ベンチマーク(Yelp、MovieLens)では、PETは直接生成ベースラインよりも、NDCGのランキング品質を最大40%向上させる。
ショートビデオプラットフォームからの大規模な実世界のデータセットでは、ロングテールコンテンツのランク付けが優れており、NDCGスコアの7倍のSOTA生産モデルよりも大幅に優れています。
究極的には、PETはユーザープロファイルモデルを直接選好リスト生成から透過的な分布選好マッピングに変換し、より説明しやすく公平で多様なパーソナライズシステムを実現する。
関連論文リスト
- PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。
PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。
我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文 参考訳(メタデータ) (2025-07-26T21:46:32Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting [90.47748423913369]
最先端のモーション予測モデルは、手動で注釈を付けたり、非常に後処理されたトラジェクトリを備えた、大規模なキュレートされたデータセットに依存している。
PWTはシンプルでスケーラブルな代替手段で、市販の3D検出器とトラッキングから自動生成される、未処理で多様な軌道を使用する。
標準ベンチマーク、特に低データのレシエーション、クロスドメイン、エンドツーエンド、マルチクラスの設定において、強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-09T13:48:15Z) - VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。
我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-30T10:39:34Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Federated Class-Incremental Learning with Hierarchical Generative Prototypes [10.532838477096055]
Federated Learning (FL)は、複数のデバイス(クライアント)に分散した計算をすることで、ディープモデルのトレーニングを解き放つことを目的としている。
提案手法は,学習可能なプロンプトを用いてトレーニング済みのバックボーンを効率よく微調整することにより,最終層のバイアスを抑える。
提案手法は現状を著しく改善し, 平均精度は+7.8%向上した。
論文 参考訳(メタデータ) (2024-06-04T16:12:27Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。