論文の概要: Towards End-to-End Alignment of User Satisfaction via Questionnaire in Video Recommendation
- arxiv url: http://arxiv.org/abs/2601.20215v1
- Date: Wed, 28 Jan 2026 03:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.751128
- Title: Towards End-to-End Alignment of User Satisfaction via Questionnaire in Video Recommendation
- Title(参考訳): ビデオレコメンデーションにおけるアンケートによるユーザ満足感の終末調整に向けて
- Authors: Na Li, Jiaqi Yu, Minzhi Xie, Tiantian He, Xiaoxiao Xu, Zixiu Wang, Lantao Hu, Yongqi Liu, Han Li, Kaiqiao Zhan, Kun Gai,
- Abstract要約: ショートビデオレコメンデータシステムは、通常、クリックやウォッチタイムなどの密集したユーザの行動信号を使用してランキングモデルを最適化する。
近年,高品質なダイレクトアライメント監視として,アンケートを通じて収集した明確な満足度フィードバックが出現している。
本研究では,EASQ と呼ばれる質問紙によるユーザ満足度をエンド・ツー・エンドにすることで,ランキングモデルのリアルタイムアライメントと真のユーザ満足度を実現するための新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 24.788289121071575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short-video recommender systems typically optimize ranking models using dense user behavioral signals, such as clicks and watch time. However, these signals are only indirect proxies of user satisfaction and often suffer from noise and bias. Recently, explicit satisfaction feedback collected through questionnaires has emerged as a high-quality direct alignment supervision, but is extremely sparse and easily overwhelmed by abundant behavioral data, making it difficult to incorporate into online recommendation models. To address these challenges, we propose a novel framework which is towards End-to-End Alignment of user Satisfaction via Questionaire, named EASQ, to enable real-time alignment of ranking models with true user satisfaction. Specifically, we first construct an independent parameter pathway for sparse questionnaire signals by combining a multi-task architecture and a lightweight LoRA module. The multi-task design separates sparse satisfaction supervision from dense behavioral signals, preventing the former from being overwhelmed. The LoRA module pre-inject these preferences in a parameter-isolated manner, ensuring stability in the backbone while optimizing user satisfaction. Furthermore, we employ a DPO-based optimization objective tailored for online learning, which aligns the main model outputs with sparse satisfaction signals in real time. This design enables end-to-end online learning, allowing the model to continuously adapt to new questionnaire feedback while maintaining the stability and effectiveness of the backbone. Extensive offline experiments and large-scale online A/B tests demonstrate that EASQ consistently improves user satisfaction metrics across multiple scenarios. EASQ has been successfully deployed in a production short-video recommendation system, delivering significant and stable business gains.
- Abstract(参考訳): ショートビデオレコメンデータシステムは、通常、クリックやウォッチタイムなどの密集したユーザの行動信号を使用してランキングモデルを最適化する。
しかし、これらの信号はユーザー満足度の間接的プロキシであり、しばしばノイズやバイアスに悩まされる。
近年, 質問紙を通じて収集した明確な満足感フィードバックは, 高品質なダイレクトアライメント管理として現れているが, 豊富な行動データに圧倒されやすく, オンラインレコメンデーションモデルに組み込むのが困難である。
これらの課題に対処するために,EASQ と呼ばれる質問紙によるユーザ満足度をエンド・ツー・エンドに調整する新しいフレームワークを提案し,ランキングモデルと真のユーザ満足度をリアルタイムに調整できるようにする。
具体的には、まずマルチタスクアーキテクチャと軽量LORAモジュールを組み合わせることで、スパースアンケート信号の独立パラメータパスを構築する。
マルチタスク設計では、疎度な満足度管理と高密度な行動シグナルを分離し、前者が圧倒されるのを防ぐ。
LoRAモジュールはパラメータ分離された方法でこれらの好みをプリインジェクトし、ユーザ満足度を最適化しながらバックボーンの安定性を確保する。
さらに、オンライン学習に適したDPOベースの最適化目標を用いて、メインモデル出力とスパース満足度信号とをリアルタイムに調整する。
この設計は、エンド・ツー・エンドのオンライン学習を可能にし、モデルがバックボーンの安定性と有効性を維持しつつ、新しいアンケートフィードバックに継続的に適応できるようにする。
大規模なオフライン実験と大規模なオンラインA/Bテストは、EASQが複数のシナリオにわたるユーザ満足度指標を一貫して改善していることを示している。
EASQは、プロダクションのショートビデオレコメンデーションシステムにうまくデプロイされ、大きく安定したビジネスゲインを提供する。
関連論文リスト
- Retentive Relevance: Capturing Long-Term User Value in Recommendation Systems [29.596401271139797]
本稿では,新しいコンテンツレベル調査に基づくフィードバック尺度であるRetentive Relevanceを紹介する。
Retentive Relevanceは、ユーザーが同様のコンテンツのためにプラットフォームに戻る意図を直接評価する。
これらの結果から,Retentive Relevanceは,エンゲージメント信号および他の調査指標よりも,翌日のリテンションの予測に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-10-08T23:38:57Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - From Clicks to Preference: A Multi-stage Alignment Framework for Generative Query Suggestion in Conversational System [11.373145953200137]
生成ポリシーとユーザ意図のプログレッシブアライメントを目的とした多段階フレームワークを提案する。
我々の枠組みは, 自動評価と人的評価の両方において, ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-08-15T10:17:01Z) - Modeling User Behavior from Adaptive Surveys with Supplemental Context [1.433758865948252]
本稿では,適応型サーベイ応答とコンテキスト信号とを融合させてユーザ動作をモデル化するモジュールアーキテクチャであるLANTERNを提案する。
我々は,選択的ゲーティング,残差接続,後期融合を通じて,調査プライマリーを維持することのアーキテクチャ的価値を実証する。
さらに、アブレーションとまれ/頻繁な属性分析により、閾値感度と選択的モダリティ依存の利点について検討する。
論文 参考訳(メタデータ) (2025-07-28T15:19:54Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Churn-Aware Recommendation Planning under Aggregated Preference Feedback [6.261444979025644]
本稿では,近年の規制と技術の変化を動機とした逐次的意思決定問題について考察する。
我々はRec-APCモデルを導入し、匿名ユーザを既知の先行ユーザ型から抽出する。
最適ポリシが有限時間で純粋な利用に収束することを証明し、それらを効率的に計算するための分岐とバウンドのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-06T19:22:47Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - Modeling User Retention through Generative Flow Networks [34.74982897470852]
フローベースのモデリング技術は、ユーザセッションで推奨される各項目に対する保持報酬をバックプロパガントすることができる。
従来の学習目標と組み合わされたフローは、最終的には、即時フィードバックとユーザ保持の両方に対して、非カウントの累積報酬を最適化した。
論文 参考訳(メタデータ) (2024-06-10T06:22:18Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。