論文の概要: Sequential Data Augmentation for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2509.13648v1
- Date: Wed, 17 Sep 2025 02:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.696495
- Title: Sequential Data Augmentation for Generative Recommendation
- Title(参考訳): 生成レコメンデーションのための逐次データ拡張
- Authors: Geon Lee, Bhuvesh Kumar, Clark Mingxuan Ju, Tong Zhao, Kijung Shin, Neil Shah, Liam Collins,
- Abstract要約: 生成的レコメンデーションはパーソナライズされたシステムにおいて重要な役割を担い、ユーザの将来のインタラクションを過去の行動シーケンスから予測する。
データ拡張(Data augmentation)は、ユーザインタラクション履歴からトレーニングデータを構築するプロセスである。
我々は、サンプリングプロセスとして拡張をモデル化し、その結果のトレーニング分布の柔軟な制御を可能にする、原則化されたフレームワークであるGenPASを提案する。
ベンチマークと産業データセットを用いた実験により、GenPASは既存の戦略よりも精度、データ効率、パラメータ効率が優れていることが示された。
- 参考スコア(独自算出の注目度): 54.765568804267645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative recommendation plays a crucial role in personalized systems, predicting users' future interactions from their historical behavior sequences. A critical yet underexplored factor in training these models is data augmentation, the process of constructing training data from user interaction histories. By shaping the training distribution, data augmentation directly and often substantially affects model generalization and performance. Nevertheless, in much of the existing work, this process is simplified, applied inconsistently, or treated as a minor design choice, without a systematic and principled understanding of its effects. Motivated by our empirical finding that different augmentation strategies can yield large performance disparities, we conduct an in-depth analysis of how they reshape training distributions and influence alignment with future targets and generalization to unseen inputs. To systematize this design space, we propose GenPAS, a generalized and principled framework that models augmentation as a stochastic sampling process over input-target pairs with three bias-controlled steps: sequence sampling, target sampling, and input sampling. This formulation unifies widely used strategies as special cases and enables flexible control of the resulting training distribution. Our extensive experiments on benchmark and industrial datasets demonstrate that GenPAS yields superior accuracy, data efficiency, and parameter efficiency compared to existing strategies, providing practical guidance for principled training data construction in generative recommendation.
- Abstract(参考訳): 生成的レコメンデーションはパーソナライズされたシステムにおいて重要な役割を担い、ユーザの将来のインタラクションを過去の行動シーケンスから予測する。
これらのモデルをトレーニングする上で、重要で未発見の要素は、ユーザインタラクション履歴からトレーニングデータを構築するプロセスであるデータ拡張である。
トレーニング分布を形作ることで、データの増大はモデルの一般化と性能に大きく影響する。
それにもかかわらず、既存の作業の多くにおいて、このプロセスは、その効果を体系的で原則的に理解することなく、単純化され、矛盾なく適用され、または小さな設計選択として扱われる。
異なる強化戦略が大きな性能格差をもたらすことを実証的に見出した結果、トレーニング分布をどう作り変え、将来の目標に適応し、未知の入力に一般化するかを詳細に分析した。
この設計空間を体系化するために、我々は、シーケンスサンプリング、ターゲットサンプリング、および入力サンプリングの3つのバイアス制御ステップを持つ入力-ターゲットペアに対する確率的サンプリングプロセスとして拡張をモデル化する一般化された原則化されたフレームワークであるGenPASを提案する。
この定式化は、広く使われている戦略を特別なケースとして統一し、その結果のトレーニング分布の柔軟な制御を可能にする。
ベンチマークおよび産業データセットに関する広範な実験により、GenPASは既存の戦略よりも精度、データ効率、パラメータ効率が優れており、ジェネレーティブ・レコメンデーションにおける原則的トレーニングデータ構築のための実践的なガイダンスを提供する。
関連論文リスト
- PEER pressure: Model-to-Model Regularization for Single Source Domain Generalization [12.15086255236961]
対象領域におけるこのような拡張に基づく手法の性能は、訓練中に普遍的に変動することを示す。
本稿では,新しい一般化法を提案する。
Space Ensemble with Entropy Regularization (PEER) – プロキシモデルを使用して、拡張データを学ぶ。
論文 参考訳(メタデータ) (2025-05-19T06:01:11Z) - Predicting Practically? Domain Generalization for Predictive Analytics in Real-world Environments [18.086130222010496]
本稿では,複雑な分布シフトを扱うための領域一般化手法を提案する。
提案手法は分散ロバスト最適化フレームワーク上に構築され,仮説上の最悪の分布に対してモデル性能を最適化する。
本稿では,情報システム (IS) 設計研究の進展における提案手法の広範な意味について論じる。
論文 参考訳(メタデータ) (2025-03-05T11:21:37Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Pre-trained Recommender Systems: A Causal Debiasing Perspective [19.712997823535066]
本研究では,異なるドメインから抽出した汎用ユーザ・イテムインタラクションデータをトレーニングすることで,ユニバーサルインタラクションパターンをキャプチャする汎用レコメンデータを開発する。
実験により,提案モデルにより,ゼロショットと少数ショットの学習環境での推薦性能が大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-30T03:37:32Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。