論文の概要: PEARL: Unbiased Percentile Estimation via Contrastive Learning for Industrial-Scale Livestream Recommendation
- arxiv url: http://arxiv.org/abs/2605.21752v1
- Date: Wed, 20 May 2026 21:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.999439
- Title: PEARL: Unbiased Percentile Estimation via Contrastive Learning for Industrial-Scale Livestream Recommendation
- Title(参考訳): PEARL:産業規模のライブストリームレコメンデーションのためのコントラスト学習による偏りのないパーセンタイル推定
- Authors: Blake Gella, Wei Wu, Yuhao Yin, Zexi Huang, Zikai Wang, Emily Liu, Junlin Zhang, Wentao Guo, Qinglei Wang,
- Abstract要約: ユーザインタラクションデータに基づいてトレーニングされたレコメンダシステムは,行動強度の不均衡の影響を受けやすい。
この不均衡は、観測された相互作用が真の嗜好を忠実に反映しないようなフィードバックシグナルを歪める。
絶対エンゲージメントの程度ではなく,相対的な選好信号をモデル化する非パラメトリックなパーセンタイル近似フレームワーク PEARL を提案する。
- 参考スコア(独自算出の注目度): 12.925115008779166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recommender systems trained on user interaction data are susceptible to behavioral intensity imbalance--a systematic distortion arising from heterogeneous engagement patterns across users. This imbalance skews feedback signals such that observed interactions no longer faithfully reflect true preferences, causing models to disproportionately amplify signals from highly active users while underrepresenting others, which ultimately degrades recommendation quality and robustness at scale. To address this issue, we propose a nonparametric contrastive percentile approximation framework, PEARL, that models relative preference signals instead of absolute engagement magnitudes. Building upon relative advantage debiasing, PEARL leverages real contrastive interaction samples to approximate percentile relationships directly, without relying on auxiliary distribution estimation models. We provide theoretical justification demonstrating that such pairwise comparisons yield unbiased estimates of percentile-based preference signals. For broader applicability, we introduce a prediction-based bootstrapping mechanism for percentile smoothing to handle sparse and discrete feedback, alongside a generalized value-weighted formulation and a co-training strategy to enhance both modeling flexibility and representation learning. Extensive offline experiments demonstrate that PEARL effectively mitigates behavioral bias and consistently improves recommendation performance across multiple ranking targets. Deployed in a production livestream platform with a combined user base of billions, online A/B testing confirms substantial real-world gains: +2.10% Watch Duration, +0.80% Consumption Amount, +1.49% Interaction Rate, and -6.91% Report Rate.
- Abstract(参考訳): ユーザインタラクションデータに基づいてトレーニングされたレコメンダシステムは,ユーザ間の不均一なエンゲージメントパターンから生じる系統的歪みである行動強度の不均衡の影響を受けやすい。
この不均衡は、観測された相互作用が真の嗜好を忠実に反映しないようなフィードバックシグナルを歪め、モデルが高度にアクティブなユーザーからの信号を不均等に増幅し、他のユーザーを弱体化させ、最終的には推奨品質と大規模な堅牢性を低下させる。
この問題に対処するために,絶対エンゲージメントの程度ではなく,相対的な選好信号をモデル化する非パラメトリックなパーセンタイル近似フレームワーク PEARL を提案する。
PEARLは相対的に有利な偏りを生かし、実際の対照的な相互作用サンプルを利用して、補助分布推定モデルに頼ることなく直接パーセンタイル関係を近似する。
我々は、このようなペア比較がパーセンタイルに基づく選好信号の偏りのない見積もりをもたらすことを示す理論的正当性を示す。
より広範な適用性を実現するため,スパースと離散的なフィードバックを扱うためにパーセンタイルスムーシングのための予測ベースのブートストラップ機構を導入し,モデリングの柔軟性と表現学習の両面を強化するための一般化された値重み付き定式化と協調学習戦略を提案する。
大規模なオフライン実験により、PEARLは行動バイアスを効果的に軽減し、複数のランク付け対象におけるレコメンデーション性能を一貫して改善することを示した。
数十億のユーザベースを組み合わせた実運用のライブストリームプラットフォームにデプロイされたオンラインA/Bテストでは,実質的な増加が確認されている。+2.10% Watch Duration, +0.80% Consumption Amount, +1.49% Interaction Rate, -6.91% Report Rateだ。
関連論文リスト
- When Individually Calibrated Models Become Collectively Miscalibrated [3.556355987197792]
本研究では,個別に調整した予測器が戦略的に相互作用した場合に集団的に誤判定されることを示す。
正の相関関係を持つブライアスコアに基づくアグリゲーションでは、各エージェントの個別に最適なレポートは、正のクラス確率を体系的に過小評価する。
対照的に、VCGベースのアグリゲーションは、限界貢献に報いることでインセンティブを調整し、支配的な戦略的なインセンティブ互換性とほぼ最適のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T05:25:16Z) - Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning [37.981949917083746]
テスト時強化学習(TTRL)は常に擬似ラベルによる推論時にモデルを適応させる。
本稿では,突発的なシグナルを緩和する統合フレームワークであるDebiased and Denoised test-time Reinforcement Learningを提案する。
論文 参考訳(メタデータ) (2026-04-23T06:32:08Z) - Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals [18.612081365101464]
我々は,標準ラベル付き結果と,モデルが補助的推論連鎖を判断することで得られるペアワイズ比較信号とを組み合わせたフレームワークを開発する。
シミュレーション全体では, モデル出力ノイズの増加に伴い, 評価精度が大幅に向上し, ゲインが増大する。
GPQA Diamond、AIME 2025、GSM8Kの実験では、より正確な性能推定とより信頼性の高いモデルランキングが示されている。
論文 参考訳(メタデータ) (2026-02-03T03:40:01Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Causal Negative Sampling via Diffusion Model for Out-of-Distribution Recommendation [7.354459720418281]
ヒューリスティックな負サンプリングは、予め定義された候補プールから様々な硬度レベルの負のサンプルを選択することにより、推薦性能を高める。
候補プールにおける未観測環境共創者は、偽硬陰性(FHNS)をサンプリング法で導入する可能性がある
本稿では,この問題を解決するためにDiffusion (CNSDiff) を用いたCausal Negative Smpling という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-10T08:55:21Z) - A Novel Generative Model with Causality Constraint for Mitigating Biases in Recommender Systems [20.672668625179526]
遅延共起バイアスは、ユーザのフィードバックとアイテムの露出の間の真の因果関係を曖昧にする可能性がある。
本稿では,Recommender Systemsにおける表現学習のための遅延因果制約(Latent Causality Constraints)と呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:09:39Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。