論文の概要: APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2603.02730v1
- Date: Tue, 03 Mar 2026 08:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.711247
- Title: APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation
- Title(参考訳): APAO: ジェネレーティブレコメンデーションのための適応型プレフィックス・アウェア最適化
- Authors: Yuanqing Yu, Yifan Wang, Weizhi Ma, Zhiqiang Guo, Min Zhang,
- Abstract要約: 生成レコメンデーションは自動回帰生成プロセスであり、ユーザインタラクション履歴に基づいて、次の項目の離散トークンを予測する。
既存の生成レコメンデーションモデルは、通常、クロスエントロピー損失のようなトークンレベルの可能性目標で訓練される。
標準的なトレーニングでは、推論中にビームサーチが低確率の分岐を産み出すという事実を無視して、地道の歴史が常に利用可能であると仮定している。
- 参考スコア(独自算出の注目度): 26.371939617653084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative recommendation has recently emerged as a promising paradigm in sequential recommendation. It formulates the task as an autoregressive generation process, predicting discrete tokens of the next item conditioned on user interaction histories. Existing generative recommendation models are typically trained with token-level likelihood objectives, such as cross-entropy loss, while employing multi-step beam search during inference to generate ranked item candidates. However, this leads to a fundamental training-inference inconsistency: standard training assumes ground-truth history is always available, ignoring the fact that beam search prunes low-probability branches during inference. Consequently, the correct item may be prematurely discarded simply because its initial tokens (prefixes) have low scores. To address this issue, we propose the Adaptive Prefix-Aware Optimization (APAO) framework, which introduces prefix-level optimization losses to better align the training objective with the inference setting. Furthermore, we design an adaptive worst-prefix optimization strategy that dynamically focuses on the most vulnerable prefixes during training, thereby enhancing the model's ability to retain correct candidates under beam search constraints. We provide theoretical analyses to demonstrate the effectiveness and efficiency of our framework. Extensive experiments on multiple datasets further show that APAO consistently alleviates the training-inference inconsistency and improves performance across various generative recommendation backbones. Our codes are publicly available at https://github.com/yuyq18/APAO.
- Abstract(参考訳): ジェネレーティブレコメンデーションは、最近、シーケンシャルレコメンデーションにおいて有望なパラダイムとして登場した。
タスクを自動回帰生成プロセスとして定式化し、ユーザインタラクション履歴に基づいて、次の項目の離散トークンを予測する。
既存のジェネレーティブ・レコメンデーション・モデルは通常、クロスエントロピー損失のようなトークンレベルの可能性目標を用いて訓練され、推論中に複数ステップのビームサーチを用いてランキング項目候補を生成する。
しかし、これは基本的なトレーニング推論の不整合につながります。標準トレーニングは、推論中にビームサーチが低確率の分岐を産み出すという事実を無視して、基底真実の歴史が常に利用可能であると仮定します。
これにより、初期トークン(修正)のスコアが低いため、正しい項目は早期に破棄される。
この問題に対処するために,プレフィックスレベルの最適化損失を導入したAdaptive Prefix-Aware Optimization (APAO) フレームワークを提案する。
さらに、トレーニング中に最も脆弱な接頭辞に動的にフォーカスする適応型最悪の修正最適化戦略を設計し、ビームサーチ制約の下で正しい候補を維持する能力を向上させる。
我々は,フレームワークの有効性と有効性を示す理論的分析を行う。
複数のデータセットに対する大規模な実験により、APAOはトレーニングと推論の不整合を一貫して緩和し、様々な生成的推奨バックボーンのパフォーマンスを向上させることが示されている。
私たちのコードはhttps://github.com/yuyq18/APAO.comで公開されています。
関連論文リスト
- BEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models [8.738350030995894]
BEAR(Beam-Search-Aware Regularization)は、トレーニング中のビーム探索動作を明示的に考慮した、新しい微調整目標である。
4つの実世界のデータセットにわたる実験において、強力なベースラインを著しく上回る。
論文 参考訳(メタデータ) (2026-01-30T12:45:02Z) - Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction [41.53271688465831]
ユーザ行動軌跡予測(UBTP)を,長期ユーザの嗜好を明示的にモデル化するタスク設定として定式化する。
項目列全体に対して構造化された嗜好を直接最適化する拡散に基づくトレーニングフレームワークであるリスワイズ・ディフュージョン・最適化(LPDO)を導入する。
多段階の予測品質を厳密に評価するために、正確な軌跡合意を計測するタスク特異的な逐次マッチング(SeqMatch)を提案し、確率的忠実度を評価するパープレキシティ(PPL)を採用する。
論文 参考訳(メタデータ) (2025-11-01T12:16:24Z) - Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T15:00:40Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Top-N Recommendation with Counterfactual User Preference Simulation [26.597102553608348]
ユーザーランキングに基づく好みの学習を目的としたTop-Nレコメンデーションは、長い間、広範囲のアプリケーションにおいて基本的な問題だった。
本稿では,データ不足問題に対処するため,因果推論フレームワーク内での推薦タスクの再構築を提案する。
論文 参考訳(メタデータ) (2021-09-02T14:28:46Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。