論文の概要: Enhancing Prediction Models with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.06791v1
- Date: Thu, 21 Nov 2024 12:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-15 21:45:55.253819
- Title: Enhancing Prediction Models with Reinforcement Learning
- Title(参考訳): 強化学習による予測モデルの強化
- Authors: Karol Radziszewski, Piotr Ociepka,
- Abstract要約: 本稿では,Ringier Axel Springer Polskaにおける大規模ニュースレコメンデーションシステムを提案する。
Aureusという名前のこのシステムは、多腕バンディットメソッドや大規模言語モデルに基づくディープラーニングモデルなど、さまざまなアルゴリズムを統合している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present a large-scale news recommendation system implemented at Ringier Axel Springer Polska, focusing on enhancing prediction models with reinforcement learning techniques. The system, named Aureus, integrates a variety of algorithms, including multi-armed bandit methods and deep learning models based on large language models (LLMs). We detail the architecture and implementation of Aureus, emphasizing the significant improvements in online metrics achieved by combining ranking prediction models with reinforcement learning. The paper further explores the impact of different models mixing on key business performance indicators. Our approach effectively balances the need for personalized recommendations with the ability to adapt to rapidly changing news content, addressing common challenges such as the cold start problem and content freshness. The results of online evaluation demonstrate the effectiveness of the proposed system in a real-world production environment.
- Abstract(参考訳): 本稿では,Ringier Axel Springer Polskaで実装された大規模ニュースレコメンデーションシステムについて紹介する。
Aureusという名前のこのシステムは、多腕バンディットメソッドや大規模言語モデル(LLM)に基づくディープラーニングモデルなど、さまざまなアルゴリズムを統合している。
我々はAureusのアーキテクチャと実装を詳述し、ランキング予測モデルと強化学習を組み合わせることで達成したオンラインメトリクスの大幅な改善を強調した。
さらに、異なるモデルが主要なビジネスパフォーマンス指標に与える影響についても検討する。
われわれのアプローチは、パーソナライズされたレコメンデーションの必要性と、急速に変化するニュースコンテンツに対応する能力とを効果的にバランスさせ、コールドスタート問題やコンテンツの鮮度といった共通の課題に対処する。
オンライン評価の結果は,実運用環境における提案システムの有効性を示すものである。
関連論文リスト
- Online-BLS: An Accurate and Efficient Online Broad Learning System for Data Stream Classification [52.251569042852815]
オンライン更新毎にクローズドフォームソリューションを備えたオンライン広範学習システムフレームワークを導入する。
我々は,効果的な重み推定アルゴリズムと効率的なオンライン更新戦略を設計する。
我々のフレームワークは、コンセプトドリフトを伴うデータストリームシナリオに自然に拡張され、最先端のベースラインを超えます。
論文 参考訳(メタデータ) (2025-01-28T13:21:59Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Improving Sample Efficiency of Deep Learning Models in Electricity
Market [0.41998444721319217]
我々は,サンプルの効率を向上させるため,知識強化トレーニング(KAT)という一般的なフレームワークを提案する。
本稿では,いくつかの合成データを生成する新しいデータ拡張手法を提案する。
現代の学習理論は, 効果的な予測誤差フィードバック, 信頼損失関数, リッチ勾配雑音の観点から, 提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2022-10-11T16:35:13Z) - Learning New Skills after Deployment: Improving open-domain
internet-driven dialogue with human feedback [22.92577324751342]
学習フレームワークにおけるインターネットによる会話能力の向上について検討する。
デプロイデータを収集し、さまざまな種類のフィードバックを収集します。
最近導入されたDirectorモデルは、他の既存のアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-08-05T16:41:46Z) - Hybrid Model with Time Modeling for Sequential Recommender Systems [0.15229257192293202]
Booking.comはWSDM WebTour 2021 Challengeを組織した。
レコメンダシステムのための最先端のディープラーニングアーキテクチャをテストするために,いくつかの実験を行った。
実験結果から,narmの改善は他のベンチマーク手法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-07T19:28:22Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。