論文の概要: Relative Advantage Debiasing for Watch-Time Prediction in Short-Video Recommendation
- arxiv url: http://arxiv.org/abs/2508.11086v2
- Date: Thu, 02 Oct 2025 21:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.848391
- Title: Relative Advantage Debiasing for Watch-Time Prediction in Short-Video Recommendation
- Title(参考訳): 短時間の勧告における時計時間予測のための相対的アドバンテージデバイアス
- Authors: Emily Liu, Kuan Han, Minfeng Zhan, Bocheng Zhao, Guanyu Mu, Yang Song,
- Abstract要約: 本稿では,ユーザグループとアイテムグループで条件付き参照分布と比較することにより,視聴時間を補正する,新たなアドバンテージ・デバイアス化フレームワークを提案する。
このアプローチは、量子的嗜好信号を生成し、2段階アーキテクチャを導入し、配当推定と選好学習を明確に分離する。
- 参考スコア(独自算出の注目度): 5.5448753341848525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watch time is widely used as a proxy for user satisfaction in video recommendation platforms. However, raw watch times are influenced by confounding factors such as video duration, popularity, and individual user behaviors, potentially distorting preference signals and resulting in biased recommendation models. We propose a novel relative advantage debiasing framework that corrects watch time by comparing it to empirically derived reference distributions conditioned on user and item groups. This approach yields a quantile-based preference signal and introduces a two-stage architecture that explicitly separates distribution estimation from preference learning. Additionally, we present distributional embeddings to efficiently parameterize watch-time quantiles without requiring online sampling or storage of historical data. Both offline and online experiments demonstrate significant improvements in recommendation accuracy and robustness compared to existing baseline methods.
- Abstract(参考訳): ビデオレコメンデーションプラットフォームのユーザ満足度のためのプロキシとして、ウォッチタイムが広く使用されている。
しかし、生の視聴時間は、ビデオの長さ、人気度、個人ユーザーの行動などの相違要因に影響され、選好シグナルを歪ませる可能性があり、結果としてバイアスのある推薦モデルが生まれる。
本稿では,ユーザグループとアイテムグループで条件付き参照分布と比較することにより,視聴時間を補正する,新たなアドバンテージ・デバイアス化フレームワークを提案する。
このアプローチは、量子的嗜好信号を生成し、2段階アーキテクチャを導入し、配当推定と選好学習を明確に分離する。
さらに、歴史的データのオンラインサンプリングや保存を必要とせずに、時計時間量子化を効率的にパラメータ化するための分布埋め込みを提案する。
オフラインとオンラインの両方の実験は、既存のベースライン手法と比較して、推奨精度と堅牢性を大幅に改善したことを示している。
関連論文リスト
- How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics [65.67654005892469]
適切なインスタンス依存サンプリングは、より強力なランキング保証を得られる一方で、スキュードオン政治サンプリングは、構造化された嗜好の下で過剰な濃度を誘導できることを示す。
次に、学習したポリシーが将来のサンプリングおよび参照ポリシーにフィードバックする反復的なアライメントダイナミクスを分析する。
我々の理論的な洞察は直接選好最適化にまで拡張され、我々が捉えた現象はより広範な選好アライメント手法に共通していることを示している。
論文 参考訳(メタデータ) (2026-02-12T17:11:08Z) - Mind the Generative Details: Direct Localized Detail Preference Optimization for Video Diffusion Models [65.16788152626499]
LocalDPOは、ビデオ拡散モデルと人間の好みを一致させる新しいフレームワークを構築している。
そこで我々は,LocalDPOがビデオの忠実度,時間的コヒーレンス,人間の嗜好スコアを,他のポストトレーニングアプローチよりも一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-01-07T16:32:17Z) - Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。
FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。
我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文 参考訳(メタデータ) (2025-08-25T02:55:42Z) - Explicit Uncertainty Modeling for Video Watch Time Prediction [18.999640886056262]
ビデオレコメンデーションにおいて、システムのレコメンデーション精度を決定する重要なコンポーネントは、ウォッチタイム予測モジュールである。
この問題の鍵となる課題の1つは、ユーザのウォッチタイム動作である。
本稿では,ユーザの時計時間行動をよりよく活用する逆最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T09:19:19Z) - AlignPxtr: Aligning Predicted Behavior Distributions for Bias-Free Video Recommendations [1.6187265914188775]
ビデオレコメンデーションシステムでは、視聴時間、お気に入り、フォローなどのユーザの行動は、一般的にユーザーの興味を推測するために使用される。
本研究では,様々なバイアス条件にまたがる予測行動分布を量子マッピングを用いて整列する手法を提案する。
当社のアプローチは、長期のユーザ保持における大幅な改善と、平均アプリ使用時間の大幅な向上を一貫して達成しています。
論文 参考訳(メタデータ) (2025-03-10T04:59:56Z) - Modeling the Heterogeneous Duration of User Interest in Time-Dependent Recommendation: A Hidden Semi-Markov Approach [11.392605386729699]
ユーザの関心事の変化を追跡するために,隠れたセミマルコフモデルを提案する。
このモデルでは、(最近)関心のある状態に留まるユーザの異なる期間をキャプチャすることができる。
パラメータを推定し,ユーザの行動を予測するためのアルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-12-15T09:17:45Z) - Conditional Quantile Estimation for Uncertain Watch Time in Short-Video Recommendation [2.3166433227657186]
本稿では,時計時間全体の条件分布をモデル化するための条件量子推定(CQE)を提案する。
CQEは、ユーザとビデオのペアごとに複雑なウォッチタイム分布を特徴付け、ユーザの振る舞いを理解するための柔軟で包括的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-17T00:25:35Z) - Counteracting Duration Bias in Video Recommendation via Counterfactual Watch Time [63.844468159126826]
視聴時間の予測は時間のバイアスに悩まされ、ユーザーの興味を正確に反映する能力を妨げる。
対実時計モデル (CWM) が提案され、CWTはユーザーがビデオレコメンデーションシステムから最大限の利益を得る時間に等しいことを示した。
論文 参考訳(メタデータ) (2024-06-12T06:55:35Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - Probabilistic and Variational Recommendation Denoising [56.879165033014026]
暗黙のフィードバックから学ぶことは、推奨システムの適用において最も一般的なケースの1つである。
本稿では,暗黙のフィードバックに対する確率的・変動的推薦を提案する。
提案したDPIとDVAEを4つの最先端レコメンデーションモデルに適用し、3つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-05-20T08:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。