論文の概要: SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search
- arxiv url: http://arxiv.org/abs/2603.19585v1
- Date: Fri, 20 Mar 2026 02:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.95387
- Title: SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search
- Title(参考訳): SaFRO:ショートビデオ検索のためのデュアル相対的ポリシー最適化による満足度認識融合
- Authors: Renzhe Zhou, Songyang Li, Feiran Zhu, Chenglei Dai, Yi Zhang, Yi Wang, Jingwei Zhuo,
- Abstract要約: マルチタスクフュージョンは、異種予測信号を統一されたランキングスコアに集約することで、産業用短ビデオ検索システムにおいて重要な役割を担っている。
既存のアプローチは、多くの場合、長期的なユーザの満足度と一致しない、即時エンゲージメントメトリクスを最適化する。
本稿では,ショートビデオ検索におけるユーザの満足度を最適化する新しいフレームワークであるSaFROを提案する。
- 参考スコア(独自算出の注目度): 6.248205896178263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Task Fusion plays a pivotal role in industrial short-video search systems by aggregating heterogeneous prediction signals into a unified ranking score. However, existing approaches predominantly optimize for immediate engagement metrics, which often fail to align with long-term user satisfaction. While Reinforcement Learning (RL) offers a promising avenue for user satisfaction optimization, its direct application to search scenarios is non-trivial due to the inherent data sparsity and intent constraints compared to recommendation feeds. To this end, we propose SaFRO, a novel framework designed to optimize user satisfaction in short-video search. We first construct a satisfaction-aware reward model that utilizes query-level behavioral proxies to capture holistic user satisfaction beyond item-level interactions. Then we introduce Dual-Relative Policy Optimization (DRPO), an efficient policy learning method that updates the fusion policy through relative preference comparisons within groups and across batches. Furthermore, we design a Task-Relation-Aware Fusion module to explicitly model the interdependencies among different objectives, enabling context-sensitive weight adaptation. Extensive offline evaluations and large-scale online A/B tests on Kuaishou short-video search platform demonstrate that SaFRO significantly outperforms state-of-the-art baselines, delivering substantial gains in both short-term ranking quality and long-term user retention.
- Abstract(参考訳): マルチタスクフュージョンは、異種予測信号を統一されたランキングスコアに集約することで、産業用短ビデオ検索システムにおいて重要な役割を担っている。
しかし、既存のアプローチは主にエンゲージメントの指標を最適化しています。
Reinforcement Learning (RL)は、ユーザ満足度最適化のための有望な道を提供するが、その検索シナリオへの直接的な適用は、レコメンデーションフィードと比較してデータ空間や意図的な制約のため、簡単ではない。
そこで我々は,ショートビデオ検索におけるユーザの満足度を最適化する新しいフレームワークSaFROを提案する。
まず、問合せレベルの行動プロキシを利用した満足度を考慮した報酬モデルを構築し、アイテムレベルのインタラクションを超えた全体的なユーザ満足度をキャプチャする。
次に,グループ内およびバッチ間の相対的嗜好比較を通じて融合政策を更新する効率的なポリシー学習手法であるDual-Relative Policy Optimization (DRPO)を紹介する。
さらに、異なる目的の相互依存を明示的にモデル化し、文脈に敏感な重み適応を可能にするタスク関連対応統合モジュールを設計する。
Kuaishouショートビデオ検索プラットフォーム上での大規模なオフライン評価と大規模なオンラインA/Bテストは、SaFROが最先端のベースラインを大幅に上回っており、短期的なランキング品質と長期のユーザ保持の両方で大幅に向上していることを示している。
関連論文リスト
- Aligning Large Language Models with Searcher Preferences [26.974618053554394]
オープンな生成検索のための最初の大規模言語モデル(LLM)であるSearchLLMを紹介する。
ボトムライン制約を分離する階層型多次元報酬システムの設計を行う。
オフライン評価とオンラインA/Bテストでは、生成品質とユーザエンゲージメントが改善されている。
論文 参考訳(メタデータ) (2026-03-11T06:44:30Z) - RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation [36.297513746770456]
提案するRangGRは、リストワイズ直接選好最適化をレコメンデーションに組み込んだジェネレーティブ検索手法である。
IAPでは、新しいリストワイズ直接選好最適化戦略をGRに組み込んで、階層的ユーザの選好をより包括的に理解する。
トレーニングとデプロイメントにおいていくつかの実践的な改善を実現し、最終的には毎秒1万近いリクエストを処理可能なリアルタイムシステムを実現しています。
論文 参考訳(メタデータ) (2026-02-09T12:13:43Z) - Towards End-to-End Alignment of User Satisfaction via Questionnaire in Video Recommendation [24.788289121071575]
ショートビデオレコメンデータシステムは、通常、クリックやウォッチタイムなどの密集したユーザの行動信号を使用してランキングモデルを最適化する。
近年,高品質なダイレクトアライメント監視として,アンケートを通じて収集した明確な満足度フィードバックが出現している。
本研究では,EASQ と呼ばれる質問紙によるユーザ満足度をエンド・ツー・エンドにすることで,ランキングモデルのリアルタイムアライメントと真のユーザ満足度を実現するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-28T03:32:21Z) - From Clicks to Preference: A Multi-stage Alignment Framework for Generative Query Suggestion in Conversational System [11.373145953200137]
生成ポリシーとユーザ意図のプログレッシブアライメントを目的とした多段階フレームワークを提案する。
我々の枠組みは, 自動評価と人的評価の両方において, ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-08-15T10:17:01Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Sample-Rank: Weak Multi-Objective Recommendations Using Rejection
Sampling [0.5156484100374059]
本稿では,マルチゴールサンプリングとユーザ関連度(Sample-Rank)のランク付けによるマーケットプレースの多目的目標への推薦手法を提案する。
提案手法の新規性は,望まれるマルチゴール分布からサンプリングするMOレコメンデーション問題を低減し,プロダクションフレンドリーな学習-ランクモデルを構築することである。
論文 参考訳(メタデータ) (2020-08-24T09:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。