論文の概要: Align$^3$GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation
- arxiv url: http://arxiv.org/abs/2511.11255v1
- Date: Fri, 14 Nov 2025 12:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.605893
- Title: Align$^3$GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation
- Title(参考訳): Align$^3$GR:LLMに基づく生成レコメンデーションのための統一マルチレベルアライメント
- Authors: Wencai Ye, Mingjie Sun, Shuhang Chen, Wenjin Wu, Peng Jiang,
- Abstract要約: Align$3$GRはトークンレベル、振る舞いモデリングレベル、優先度レベルのアライメントを統一する新しいフレームワークである。
提案手法は,動的嗜好適応のための自己再生(SP-DPO)と実世界フィードバック(RF-DPO)を組み合わせる。
- 参考スコア(独自算出の注目度): 17.5435958671623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate significant advantages in leveraging structured world knowledge and multi-step reasoning capabilities. However, fundamental challenges arise when transforming LLMs into real-world recommender systems due to semantic and behavioral misalignment. To bridge this gap, we propose Align$^3$GR, a novel framework that unifies token-level, behavior modeling-level, and preference-level alignment. Our approach introduces: Dual tokenization fusing user-item semantic and collaborative signals. Enhanced behavior modeling with bidirectional semantic alignment. Progressive DPO strategy combining self-play (SP-DPO) and real-world feedback (RF-DPO) for dynamic preference adaptation. Experiments show Align$^3$GR outperforms the SOTA baseline by +17.8% in Recall@10 and +20.2% in NDCG@10 on the public dataset, with significant gains in online A/B tests and full-scale deployment on an industrial large-scale recommendation platform.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構造化世界知識と多段階推論能力を活用する上で大きな利点を示す。
しかし、LLMを現実のレコメンデーションシステムに変換する際には、意味的および行動的ミスアライメントによって根本的な課題が発生する。
このギャップを埋めるために、トークンレベル、振る舞いモデリングレベル、優先度レベルのアライメントを統一する新しいフレームワークであるAlign$^3$GRを提案する。
ユーザとイテムのセマンティクスと協調的なシグナルを融合したデュアルトークン化。
双方向意味的アライメントによる行動モデリングの強化
動的嗜好適応のための自己再生(SP-DPO)と実世界フィードバック(RF-DPO)を組み合わせたプログレッシブDPO戦略
実験によると、Align$^3$GRは、パブリックデータセットのRecall@10で+17.8%、NDCG@10で+20.2%、オンラインA/Bテストや産業大規模レコメンデーションプラットフォームでのフルスケールデプロイメントにおいて、SOTAベースラインを+17.8%上回っている。
関連論文リスト
- How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。