論文の概要: Don't Waste It: Guiding Generative Recommenders with Structured Human Priors via Multi-head Decoding
- arxiv url: http://arxiv.org/abs/2511.10492v1
- Date: Fri, 14 Nov 2025 01:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.892547
- Title: Don't Waste It: Guiding Generative Recommenders with Structured Human Priors via Multi-head Decoding
- Title(参考訳): 無駄にしない:マルチヘッドデコーディングによる構造化された人間によるジェネレーティブレコメンダの誘導
- Authors: Yunkai Zhang, Qiang Zhang, Feng, Lin, Ruizhong Qiu, Hanchao Yu, Jason Liu, Yinglong Xia, Zhuoran Yu, Zeyu Zheng, Diji Yang,
- Abstract要約: 生成的推薦者のエンド・ツー・エンドトレーニングに直接、人間の先入観を直接シームレスに統合するバックボーン非依存の枠組みを導入する。
本手法は精度と超精度の両方を著しく向上させる。
- 参考スコア(独自算出の注目度): 33.93040226839922
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Optimizing recommender systems for objectives beyond accuracy, such as diversity, novelty, and personalization, is crucial for long-term user satisfaction. To this end, industrial practitioners have accumulated vast amounts of structured domain knowledge, which we term human priors (e.g., item taxonomies, temporal patterns). This knowledge is typically applied through post-hoc adjustments during ranking or post-ranking. However, this approach remains decoupled from the core model learning, which is particularly undesirable as the industry shifts to end-to-end generative recommendation foundation models. On the other hand, many methods targeting these beyond-accuracy objectives often require architecture-specific modifications and discard these valuable human priors by learning user intent in a fully unsupervised manner. Instead of discarding the human priors accumulated over years of practice, we introduce a backbone-agnostic framework that seamlessly integrates these human priors directly into the end-to-end training of generative recommenders. With lightweight, prior-conditioned adapter heads inspired by efficient LLM decoding strategies, our approach guides the model to disentangle user intent along human-understandable axes (e.g., interaction types, long- vs. short-term interests). We also introduce a hierarchical composition strategy for modeling complex interactions across different prior types. Extensive experiments on three large-scale datasets demonstrate that our method significantly enhances both accuracy and beyond-accuracy objectives. We also show that human priors allow the backbone model to more effectively leverage longer context lengths and larger model sizes.
- Abstract(参考訳): 多様性、ノベルティ、パーソナライゼーションなど、正確性を超えた目的のための推奨システムの最適化は、長期的なユーザ満足度に不可欠である。
この目的のために、産業実践者は膨大な量の構造化されたドメイン知識を蓄積し、それを人間の先駆者(例えば、項目分類学、時間パターン)と呼ぶ。
この知識は典型的には、ランク付け中やポストランク付け中のポストホック調整によって適用される。
しかし、このアプローチは、特に業界がエンドツーエンドのジェネレーティブ・リコメンデーション・ファンデーション・モデルにシフトするにつれて、コアモデル学習から切り離されたままである。
一方、これらの超精度目標を対象とする多くの手法は、アーキテクチャ固有の修正を必要とし、ユーザ意図を完全に教師なしの方法で学習することで、これらの価値ある人的優先を破棄することが多い。
長年の実践で蓄積された人的先入観を捨てる代わりに、人的先入観をシームレスに統合するバックボーン非依存の枠組みを導入し、生成レコメンデータのエンドツーエンドトレーニングに組み込む。
効率的なLCMデコーディング戦略にインスパイアされた、軽量で事前条件付きアダプタヘッドにより、我々のアプローチは、人間の理解可能な軸(例えば、相互作用タイプ、長期と短期の関心事)に沿ってユーザ意図を歪めてしまうよう、モデルをガイドする。
また、異なる先行型間での複雑な相互作用をモデル化するための階層的な構成戦略も導入する。
3つの大規模データセットに対する大規模な実験により,本手法は精度と超精度の両方を著しく向上させることが示された。
また,より長いコンテキスト長とより大きなモデルサイズをより効果的に活用できることも示している。
関連論文リスト
- Breaking the Likelihood Trap: Consistent Generative Recommendation with Graph-structured Model [8.011282322871958]
推薦システムの最終段階として、リグレードはリアルタイムの推論、正確性、多様性を要求する。
本稿では,新しい生成的推薦フレームワークであるConsistent Graph-structured Generative Recommendation (Congrats)を提案する。
大規模なビデオ共有アプリKuaishouは、毎日3億人のアクティブユーザーを抱えている。
論文 参考訳(メタデータ) (2025-10-11T09:21:01Z) - Slow Thinking for Sequential Recommendation [88.46598279655575]
本稿では,STREAM-Recという新しいスローシンキングレコメンデーションモデルを提案する。
弊社のアプローチは、過去のユーザの振る舞いを分析し、多段階の熟考的推論プロセスを生成し、パーソナライズされたレコメンデーションを提供する。
具体的には,(1)レコメンデーションシステムにおける適切な推論パターンを特定すること,(2)従来のレコメンデーションシステムの推論能力を効果的に刺激する方法を検討すること,の2つの課題に焦点を当てる。
論文 参考訳(メタデータ) (2025-04-13T15:53:30Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。
OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-20T02:23:09Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Attention-Based Deep Learning Framework for Human Activity Recognition
with User Adaptation [5.629161809575013]
センサに基づく人間活動認識(HAR)は、センサ生成時系列データに基づいて人の行動を予測する必要がある。
純粋に注意に基づくメカニズムに基づく新しいディープラーニングフレームワーク、algnameを提案する。
提案した注目に基づくアーキテクチャは,従来のアプローチよりもはるかに強力であることを示す。
論文 参考訳(メタデータ) (2020-06-06T09:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。