Cold-Starts in Generative Recommendation: A Reproducibility Study
Abstractの概要
本論文は、統一的なコールドスタートプロトコルの下で生成型推薦システムの体系的な再現性研究を行い、新規ユーザーおよび新規アイテムの両方の設定を対象としている。著者らは、代表的な生成型推薦モデルを従来の逐次推薦ベースライン(SASRec、GRU4Rec)と共に再現し、Amazon-Toys、MicroLens、Steamの3つのデータセットで評価を行った。本研究では、先行研究でしばしば混同されてきた3つの設計次元、すなわちモデル規模、アイテム識別子の設計、および学習戦略(SFT vs. 強化学習)を分離して検証している。実験の結果、コールドスタートの挙動は高度に非対称であり、アイテムコールドスタートでは劇的な性能低下が生じる一方、ユーザーコールドスタートでは中程度の劣化にとどまることが明らかになった。本研究は、コールドスタート条件下における生成型推薦システムの汎化性能向上のための制御されたベンチマーク枠組みと実用的な指針を提供している。
新規性
主な貢献は、新しいモデルを提案するのではなく、コールドスタートを生成型推薦の中心的な評価設定として扱う、制御された再現可能なベンチマーク枠組みである。本研究は、モデル規模、識別子設計(原子的・テキスト的・意味的コードと異なる量子化方式)、および強化学習ベースの学習が、3つのデータセットにわたる統一プロトコルの下でコールドスタート汎化にそれぞれどのように影響するかを体系的に分離して検証している。
成果
経験的に、アイテムコールドスタートの性能はすべてのモデルで劇的に低下し(例:Recall@10が約0.08からほぼゼロに低下)、一方ユーザーコールドスタートの劣化は比較的穏やかであった。テキスト識別子は未知アイテムの推薦を大幅に改善するが、ウォームスタートおよびユーザーコールドスタートの性能を低下させ、一方で構成的意味コード(例:OPQ)はウォームスタートの精度を犠牲にせずアイテムコールドスタートのロバスト性を向上させた。モデルサイズをFlan-T5-smallからFlan-T5-xlに拡大すると一貫した改善が得られるものの限定的であり、コールドスタートギャップを埋めるには至らず、強化学習の追加はコールドスタート条件下で性能をわずかに低下させた(例:Amazon-ToysのアイテムコールドスタートでRecall@10が最大−6.5%)。
論文の注目点
- アイテムコールドスタートは、再現されたすべての手法およびデータセットにおいてユーザーコールドスタートよりも大幅に困難であり、多くのモデルが未知アイテムに対してほぼ完全な性能崩壊を経験する一方、未知ユーザーに対しては中程度の性能を維持している。
- 識別子の設計は決定的な要因であり、テキスト識別子は未知アイテムの推薦を顕著に改善するがウォームスタートおよびユーザーコールドスタートの性能を低下させ、一方で構成的意味コード(例:OPQ)はすべての設定においてより優れたロバスト性を提供する。
- モデル規模の拡大および強化学習の追加はコールドスタートへの効果が限定的であり、強化学習はロバスト性をわずかに低下させることさえある(アイテムコールドスタートで最大−6.5%)。これは、これらの設計選択だけでは生成型推薦における分布シフトの課題に対処できないことを示している。