論文の概要: SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2601.21452v1
- Date: Thu, 29 Jan 2026 09:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.698239
- Title: SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation
- Title(参考訳): SAGE: ジェネレーティブレコメンデーションのためのシーケンスレベルの適応的グラディエント進化
- Authors: Yu Xie, Xing Kai Ren, Ying Qi, Hu Yao,
- Abstract要約: 本稿では,リストワイド生成レコメンデーションに適した統一最適化フレームワークを提案する。
シーケンスレベルの信号デカップリング: 幾何平均的重要性比と分離された多目的の利点を組み合わせることにより、トークンレベルの分散を排除します。
非対称適応ダイナミクス: 超線形更新を実現するために、高強度冷間開始項目に「ブーストファクタ」を適用した動的勾配多様体を構築する。
- 参考スコア(独自算出の注目度): 8.54123828673921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While works such as OneRec have validated the scaling laws of Large Language Models (LLMs) in recommender systems, they rely on a cumbersome separate vocabulary. This dependency prevents the model architecture from reusing native LLM vocabularies, resulting in high maintenance costs and poor scalability. In response, we aim to efficiently reuse open-source LLM architectures without constructing a separate tokenization vocabulary. Furthermore, we identify that the optimization strategy of OneRec Gradient Bounded Policy Optimization (GBPO),suffers from a "Symmetric Conservatism" problem: its static gradient boundaries structurally suppress the update momentum required for cold-start items and fail to prevent diversity collapse in high-noise environments.To address this issue, we propose SAGE (Sequence-level Adaptive Gradient Evolution), a unified optimization framework tailored for list-wise generative recommendation. SAGE introduces two key innovations:(1) Sequence-level Signal Decoupling: By combining a geometric mean importance ratio with decoupled multi-objective advantages, we eliminate token-level variance and resolve the "Reward Collapse" problem. (2) Asymmetric Adaptive Dynamics: We construct a dynamic gradient manifold that applies a "Boost Factor" to high-potential cold start items to achieve super-linear updates and employs an "Entropy Aware Penalty" to break information cocoons. Theoretical analysis and empirical results demonstrate that SAGE effectively unblocks cold-start traffic and sustains recommendation diversity, all while retaining the numerical stability of GBPO.
- Abstract(参考訳): OneRecのような作業は、レコメンデータシステムにおけるLarge Language Models(LLM)のスケーリング法則を検証する一方で、面倒な別々の語彙に依存している。
この依存関係は、モデルアーキテクチャがネイティブなLLM語彙を再利用することを防ぎ、高いメンテナンスコストとスケーラビリティの低下をもたらす。
本研究の目的は,異なるトークン化語彙を構築することなく,オープンソースのLLMアーキテクチャを効率的に再利用することである。
さらに,1Recグラディエント・バウンド・ポリシー・オプティマイゼーション(GBPO)の最適化戦略は,その静的な勾配境界が冷間開始項目に必要な更新モーメントを構造的に抑制し,高雑音環境における多様性の崩壊を防ぐのに失敗する,という「対称性保守性」の問題から,SAGE(Sequence-level Adaptive Gradient Evolution)を提案し,リストワイド・ジェネレーション・レコメンデーションに適した統一最適化フレームワークを提案する。
1) シーケンスレベルのシグナル疎結合: 幾何平均的重要性比と分離された多目的の利点を組み合わせることで、トークンレベルの分散を排除し、"逆崩壊"の問題を解決する。
2)非対称適応力学:超線形更新を実現するため,高強度冷間開始項目に「ブーストファクタ」を適用した動的勾配多様体を構築し,情報ココーンを破るために「エントロピー・アウェア・ペナルティ」を用いる。
SAGEは,GBPOの数値安定性を維持しつつ,コールドスタートトラフィックを効果的に遮断し,勧告の多様性を維持できることを示した。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Downgrade to Upgrade: Optimizer Simplification Enhances Robustness in LLM Unlearning [25.53799024782883]
大言語モデル(LLM)は、既存のモデルから望ましくないデータや知識の影響を外科的に除去することを目的としている。
最近の知見は、ウェイト量子化や微調整のような未学習操作が、意図した忘れを迅速に中和できることを示している。
論文 参考訳(メタデータ) (2025-10-01T10:50:14Z) - ESSA: Evolutionary Strategies for Scalable Alignment [8.418036456622158]
我々は,前向き推論とブラックボックス最適化のみを用いて,Large Language Models (LLM) を整列する勾配のないフレームワークであるESSAを提案する。
ESSAはQwen2.5-Math-7Bのテスト精度をGSM8Kで12.6%、PRM800Kで14.8%改善し、IFEvalでLLaMA3.1-8Bの精度を22.5%向上させた。
大規模な設定では、ESSAは勾配ベースの方法よりもスケーリングが強い。
論文 参考訳(メタデータ) (2025-07-06T16:23:07Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [14.321060805197874]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。