論文の概要: Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation
- arxiv url: http://arxiv.org/abs/2602.15005v1
- Date: Mon, 16 Feb 2026 18:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.63176
- Title: Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation
- Title(参考訳): クロスドメインニュースレコメンデーションのための推論と蒸留によるユーザ関心の学習
- Authors: Mengdan Zhu, Yufan Zhao, Tao Di, Yulan Yan, Liang Zhao,
- Abstract要約: ニュースレコメンデーションは、ユーザーが関連コンテンツを発見するのを助けることで、オンラインニュースプラットフォームにおいて重要な役割を果たす。
ドメイン間のニュースレコメンデーションはさらに、不均一な信号からユーザの基本的な情報要求を推測する必要がある。
本稿では,大規模言語モデルを学習し,興味を駆使したニュース検索クエリの高品質なリストを生成するための強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.070021001906444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: News recommendation plays a critical role in online news platforms by helping users discover relevant content. Cross-domain news recommendation further requires inferring user's underlying information needs from heterogeneous signals that often extend beyond direct news consumption. A key challenge lies in moving beyond surface-level behaviors to capture deeper, reusable user interests while maintaining scalability in large-scale production systems. In this paper, we present a reinforcement learning framework that trains large language models to generate high-quality lists of interest-driven news search queries from cross-domain user signals. We formulate query-list generation as a policy optimization problem and employ GRPO with multiple reward signals. We systematically study two compute dimensions: inference-time sampling and model capacity, and empirically observe consistent improvements with increased compute that exhibit scaling-like behavior. Finally, we perform on-policy distillation to transfer the learned policy from a large, compute-intensive teacher to a compact student model suitable for scalable deployment. Extensive offline experiments, ablation studies and large-scale online A/B tests in a production news recommendation system demonstrate consistent gains in both interest modeling quality and downstream recommendation performance.
- Abstract(参考訳): ニュースレコメンデーションは、ユーザーが関連コンテンツを発見するのを助けることで、オンラインニュースプラットフォームにおいて重要な役割を果たす。
ドメイン間のニュースレコメンデーションはさらに、直接のニュース消費を超えて拡張されることの多い異種信号から、ユーザの基本的な情報要求を推測する必要がある。
重要な課題は、大規模なプロダクションシステムにおけるスケーラビリティを維持しながら、表面レベルの振る舞いを超えて、より深く再利用可能なユーザ関心を捉えることだ。
本稿では,大規模言語モデルを学習し,ドメイン横断的なユーザ信号から関心駆動型ニュース検索クエリの高品質なリストを生成するための強化学習フレームワークを提案する。
ポリシー最適化問題としてクエリリスト生成を定式化し、複数の報酬信号を持つGRPOを用いる。
推定時間サンプリングとモデルキャパシティの2つの計算次元を体系的に研究し,スケーリングのような振る舞いを示す計算量の増加による一貫した改善を経験的に観察する。
最後に,大規模で計算集約的な教師から,スケーラブルな展開に適したコンパクトな学生モデルに学習方針を移すためのオンライン蒸留を行う。
プロダクションニュースレコメンデーションシステムにおける大規模なオフライン実験、アブレーション研究、大規模オンラインA/Bテストは、関心モデリング品質と下流レコメンデーションパフォーマンスの両方において一貫した利益を示す。
関連論文リスト
- CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search [10.310885252492925]
CroPS (Cross-Perspective Positive Samples) は、新しい検索データエンジンである。
ユーザクエリの修正行動から得られる肯定的な信号によるトレーニングを強化する。
CroPSは現在Kuaishou Searchに完全にデプロイされており、毎日数億人のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2025-11-19T13:57:40Z) - From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization [7.531052649961168]
検証可能な報酬付き強化学習(RLVR)は、最近、大規模言語モデル(LLM)の推論能力を進歩させた。
サンプル中心の観点からRLVRを調査し,プログレッシブ最適化手法の枠組みであるLPPOを導入する。
私たちの仕事は、データボリュームを単にスケールアップするのではなく、小さな信頼性のある高品質なデモを最大限に活用する方法という、重要な問題に対処しています。
論文 参考訳(メタデータ) (2025-07-09T06:05:28Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - A Recommendation Model Utilizing Separation Embedding and Self-Attention for Feature Mining [7.523158123940574]
レコメンデーションシステムは、ユーザのニーズを満たすコンテンツをユーザに提供します。
従来のクリックスルーレート予測とTOP-Kレコメンデーションメカニズムはレコメンデーションのニーズを満たすことができない。
本稿では,ネットワーク間の分離に基づくレコメンデーションシステムモデルを提案する。
論文 参考訳(メタデータ) (2024-10-19T07:49:21Z) - Self-Supervised Hypergraph Transformer for Recommender Systems [25.07482350586435]
自己監督型ハイパーグラフ変換器(SHT)
自己監督型ハイパーグラフ変換器(SHT)
ユーザ-テム相互作用グラフ上のデータ拡張のために,クロスビュー生成型自己教師型学習コンポーネントを提案する。
論文 参考訳(メタデータ) (2022-07-28T18:40:30Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Self-supervised Learning for Large-scale Item Recommendations [18.19202958502061]
大規模なレコメンデータモデルは、巨大なカタログから最も関連性の高いアイテムを見つけ出す。
コーパスには何百万から数十億ものアイテムがあり、ユーザーはごく少数のユーザーに対してフィードバックを提供する傾向にある。
大規模項目推薦のためのマルチタスク自己教師型学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T06:21:43Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。