論文の概要: Identifying Offline Metrics that Predict Online Impact: A Pragmatic Strategy for Real-World Recommender Systems
- arxiv url: http://arxiv.org/abs/2507.09566v1
- Date: Sun, 13 Jul 2025 10:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.474751
- Title: Identifying Offline Metrics that Predict Online Impact: A Pragmatic Strategy for Real-World Recommender Systems
- Title(参考訳): オンラインインパクトを予測するオフラインメトリクスの特定:現実世界のレコメンダシステムのための実践的戦略
- Authors: Timo Wilm, Philipp Normann,
- Abstract要約: オンライン影響に対応するオフラインメトリクスを識別するための実用的戦略を導入する。
セッションベースレコメンデータシステムにおける大規模オンライン実験を通じて,その戦略を検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A critical challenge in recommender systems is to establish reliable relationships between offline and online metrics that predict real-world performance. Motivated by recent advances in Pareto front approximation, we introduce a pragmatic strategy for identifying offline metrics that align with online impact. A key advantage of this approach is its ability to simultaneously serve multiple test groups, each with distinct offline performance metrics, in an online experiment controlled by a single model. The method is model-agnostic for systems with a neural network backbone, enabling broad applicability across architectures and domains. We validate the strategy through a large-scale online experiment in the field of session-based recommender systems on the OTTO e-commerce platform. The online experiment identifies significant alignments between offline metrics and real-word click-through rate, post-click conversion rate and units sold. Our strategy provides industry practitioners with a valuable tool for understanding offline-to-online metric relationships and making informed, data-driven decisions.
- Abstract(参考訳): 推薦システムにおける重要な課題は、実世界のパフォーマンスを予測するオフラインとオンラインのメトリクス間の信頼性の高い関係を確立することである。
Paretoのフロント近似の最近の進歩に触発されて、オンラインのインパクトに合わせたオフラインメトリクスを特定するための実践的な戦略を導入しました。
このアプローチの主な利点は、単一のモデルで制御されたオンライン実験において、複数のテストグループ、それぞれが異なるオフラインパフォーマンスメトリクスを同時に提供する能力である。
この方法は、ニューラルネットワークのバックボーンを持つシステムに対しては、モデルに依存しないため、アーキテクチャやドメインにまたがる広範な適用性を実現する。
OTTOのeコマースプラットフォーム上でセッションベースのレコメンデータシステムにおいて,大規模なオンライン実験を通じて戦略を検証する。
オンライン実験では、オフラインメトリクスとリアルワードクリックスルーレート、クリック後変換レート、販売単位との間の重要な整合性を明らかにしている。
当社の戦略は、オフラインからオンラインまでのメトリクス関係を理解し、情報でデータ駆動的な意思決定を行うための貴重なツールを、業界実践者に提供します。
関連論文リスト
- Generative Auto-Bidding with Value-Guided Explorations [47.71346722705783]
本稿では,GAVE(Value-Guided Explorations)を用いた新しいオフライン自動入札フレームワークを提案する。
2つのオフラインデータセットと実世界のデプロイに関する実験結果は、GAVEがオフライン評価とオンラインA/Bテストの両方で最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-20T12:28:49Z) - Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Optimistic Critic Reconstruction and Constrained Fine-Tuning for General Offline-to-Online RL [36.65926744075032]
オフラインからオンラインへの強化学習(O2O)は、オンラインインタラクションの制限によって、パフォーマンスが急速に向上する。
近年の研究では、特定のオフラインRL手法の微調整戦略を設計することが多く、任意のオフライン手法から一般のO2O学習を行うことはできない。
この2つのミスマッチを同時に処理し,オフラインメソッドからオンラインメソッドへの一般的なO2O学習を実現することを提案する。
論文 参考訳(メタデータ) (2024-12-25T09:52:22Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of
Simulation [11.940733431087102]
学術的・産業的な研究において、オンライン評価手法はレコメンデーションシステムのようなインタラクティブなアプリケーションのための黄金の標準と見なされている。
オンライン評価手法は様々な理由で費用がかかるが、信頼性の高いオフライン評価手順の必要性は明らかである。
学術研究において、オンラインシステムへの限られたアクセスは、オフラインメトリクスを新しい方法を検証するデファクトアプローチにする。
論文 参考訳(メタデータ) (2022-09-18T20:03:32Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。