論文の概要: Causal Representation Learning for Generalisable Recommendation
- arxiv url: http://arxiv.org/abs/2605.27043v1
- Date: Tue, 26 May 2026 13:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.204037
- Title: Causal Representation Learning for Generalisable Recommendation
- Title(参考訳): 一般レコメンデーションのための因果表現学習
- Authors: Yorgos Felekis, Michael O'Riordan, Oriol Corcoll, Ciarán M. Gilligan-Lee,
- Abstract要約: 観測データに基づいてトレーニングされた予測モデルは、デプロイ時に遭遇する分布を一般化できないことが多い。
本稿では,入力の因果成分にのみ依存する情報理論的非絡み合い基準を提案し,その最適性を証明する。
当社の見出し評価は、Spotify上の数百万のユーザによるA/Bテストであり、個人化されたプレイリスト生成のためのプロダクションランキングに適用される。
- 参考スコア(独自算出の注目度): 1.8124328823188354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predictive models trained on observational data often fail to generalise to the distributions they encounter when deployed, especially when the training data is a product of the system being optimised. Recommender systems are a canonical example: they are trained on interaction logs confounded by the deployed policy, past user behaviour, and platform filtering. As a result, the training distribution differs substantially from the candidate distribution scored at serving time, a gap that makes offline metrics unreliable predictors of online performance. We address the distribution shift problem with a method motivated by causal representation learning (CRL). We propose an information-theoretic disentanglement criterion and prove that its optimum depends only on the causal components of the input. We then derive a tractable variational lower bound that makes the criterion optimisable from finite observational data alone. The scope of our method is narrower than that of much of the CRL literature, in that we target better generalisation under distribution shift, not full identification of all latent causal factors. This narrower target is what makes the method practical, requiring only the existing confounded logs, applying to any standard supervised model, and adding no inference-time cost. Our headline evaluation is an A/B test with millions of users on Spotify, applied to a production ranker for personalised playlist generation. A capacity-matched CRL variant performed on par offline but delivered substantial online gains in listener engagement. Complementary evidence on the public KuaiRand recommendation dataset and a synthetic benchmark with known causal structure shows the same pattern: offline parity with baseline, gains under distribution shift. Across all three settings, adding our causal disentanglement objective yields meaningfully better out-of-distribution generalisation.
- Abstract(参考訳): 観測データに基づいてトレーニングされた予測モデルは、デプロイ時に遭遇する分布、特に、最適化されたシステムの製品であるトレーニングデータの一般化に失敗することが多い。
それらは、デプロイされたポリシー、過去のユーザの振る舞い、プラットフォームのフィルタリングによって構築されたインタラクションログに基づいてトレーニングされる。
その結果、トレーニング分布は、オンラインパフォーマンスのオフラインメトリクスの信頼性を損なうようなギャップである、サービス時の候補分布と大きく異なる。
本稿では、因果表現学習(CRL)を動機とする手法を用いて、分布シフト問題に対処する。
本稿では,入力の因果成分にのみ依存する情報理論的非絡み合い基準を提案し,その最適性を証明する。
次に、有限観測データのみから基準値が最適となるような、トラクタブルな変分下界を導出する。
提案手法のスコープはCRL文献のそれよりも狭く、分布シフト下でのより優れた一般化を目標とし、潜在因果因子の完全な同定は行わない。
このより狭いターゲットは、メソッドを実用的なものにし、既存の統合ログだけを必要とし、標準的な教師付きモデルに適用し、推論時間のコストを追加しない。
当社の見出し評価は、Spotify上の数百万のユーザによるA/Bテストであり、個人化されたプレイリスト生成のためのプロダクションランク付けに適用される。
キャパシティにマッチしたCRLがオフラインで実行されたが、リスナーのエンゲージメントは大幅に向上した。
パブリックなKuaiRandレコメンデーションデータセットと既知の因果構造を持つ合成ベンチマークに関する補完的な証拠は、同じパターンを示している。
これら3つの設定にまたがって、因果解離の目的を加えることで、分布外一般化が有意義に向上する。
関連論文リスト
- DISA: Offline Importance Sampling for Distribution-Matching LLM-RL [56.9445657766829]
本稿では、このキャリブレーション問題をRLループの外に移動させるdisAを紹介する。
DISAは提案トラジェクトリをオフラインに描画し、重要サンプリングによってパーティション関数を推定し、結果として発生するパーティション関数の推定を凍結する。
6つの数学と3つのコードベンチマークにまたがる2つのオープンウェイトなバックボーンでは、DisdisAはオンラインに結合した分散マッチングベースラインフローにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T07:14:44Z) - Discrete Flow Matching for Offline-to-Online Reinforcement Learning [10.112779201155005]
DRIFTは、オフラインで事前訓練された連続時間マルコフ連鎖(CTMC)ポリシーを更新するオンラインの微調整手法である。
大規模離散的なアクション空間に対して、参照ポリシーロールアウトからサンプリングされたアクションの小さなサブセット上でアクターを更新する候補セット近似を導入する。
離散的動作RLタスクに対する実験により,本手法が全タスクに対して安定したオフライン-オンライン改善を実現することを示す。
論文 参考訳(メタデータ) (2026-05-12T16:44:02Z) - Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings [21.672670192853506]
1)デプロイ前、ラベルのないターゲットデータに対して最適なモデルを選択する方法、(2)デプロイ後、分散シフト時のモデルパフォーマンスを監視する方法、の2つの実践シナリオに注目した。
我々は、一般化性能の予測指標として、モデルの内部構造、すなわち回路を用いる。
論文 参考訳(メタデータ) (2026-04-09T12:44:19Z) - SimGR: Escaping the Pitfalls of Generative Decoding in LLM-based Recommendation [68.00727783181289]
推薦システムの中核的な目的は、パーソナライズされたレコメンデーションを可能にするために、アイテムよりもユーザの好みの分布を正確にモデル化することである。
アイテムレベルの嗜好分布を推定する際に,既存の手法が必然的に系統的バイアスを生じさせることを観察する。
textbfSimply textbfGenerative textbfRecommendation (textbfSimGR)を提案する。
論文 参考訳(メタデータ) (2026-02-08T07:26:52Z) - Learn More with Less: Uncertainty Consistency Guided Query Selection for RLVR [18.494852448006462]
既存のRLVRアルゴリズムでは、大量のクエリ予算が必要で、アノテーションはコストがかかる。
我々は、RLVRにアクティブラーニング(AL)を導入し、より少ないがより情報的なクエリが類似または優れたパフォーマンスをもたらすかどうかを調査する。
実験の結果,本手法は乱数および古典的ALベースラインを一貫して上回り,データの30%をトレーニングしながら全データセットのパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2026-01-30T05:41:55Z) - Scalable Data Attribution via Forward-Only Test-Time Inference [3.5466521714943138]
データ属性は、モデルを形作ったトレーニング例に遡る。
同一の1次対物目標を保存するデータ属性法を提案する。
提案手法は,大規模事前学習モデルにおける実時間データ属性の理論的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-25T00:11:39Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。