論文の概要: Counterfactual Evaluation of Ads Ranking Models through Domain Adaptation
- arxiv url: http://arxiv.org/abs/2409.19824v1
- Date: Sun, 29 Sep 2024 23:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:51.075910
- Title: Counterfactual Evaluation of Ads Ranking Models through Domain Adaptation
- Title(参考訳): ドメイン適応による広告ランク付けモデルの実証評価
- Authors: Mohamed A. Radwan, Himaghna Bhattacharjee, Quinn Lanners, Jiasheng Zhang, Serkan Karakulak, Houssam Nassif, Murat Ali Bayir,
- Abstract要約: このアプローチは、大規模広告レコメンデータシステムにおけるランキングモデル変更に対する報酬を測定する。
提案手法は,非一般化報酬モデルを用いて,バニラIPS法とアプローチの両方に優れることを示した。
- 参考スコア(独自算出の注目度): 4.488611783089895
- License:
- Abstract: We propose a domain-adapted reward model that works alongside an Offline A/B testing system for evaluating ranking models. This approach effectively measures reward for ranking model changes in large-scale Ads recommender systems, where model-free methods like IPS are not feasible. Our experiments demonstrate that the proposed technique outperforms both the vanilla IPS method and approaches using non-generalized reward models.
- Abstract(参考訳): ランク付けモデルを評価するために,オフラインA/Bテストシステムと連携して機能するドメイン適応型報酬モデルを提案する。
このアプローチは、IPSのようなモデルフリーメソッドが実現不可能な大規模広告レコメンデータシステムにおいて、モデル変更のランク付けに対する報酬を効果的に測定する。
提案手法は,非一般化報酬モデルを用いて,バニラIPS法とアプローチの両方に優れることを示した。
関連論文リスト
- Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Reject option models comprising out-of-distribution detection [6.746400031322727]
アウト・オブ・ディストリビューション・セットアップの最適予測戦略は、機械学習の基本的な問題である。
OOD設定に対する3つの拒否オプションモデルを提案する。
提案したモデルがそれぞれ異なる定式化にもかかわらず、最適戦略の共通クラスを共有していることを確立する。
論文 参考訳(メタデータ) (2023-07-11T12:09:14Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - A Recommendation Approach based on Similarity-Popularity Models of
Complex Networks [1.385805101975528]
そこで本研究では,類似性傾向モデルにより生成された複雑なネットワークをベースとした新しい推薦手法を提案する。
まず、観測されたレーティングからユーザとアイテムをノードとして持つネットワークモデルを構築し、そのモデルを用いて未知のレーティングを予測する。
提案手法は, 各種ドメインの21データセットに対して, ベースラインと最先端のレコメンデーション手法に対して, 提案手法を実装, 実験的に比較した。
論文 参考訳(メタデータ) (2022-09-29T11:00:06Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - A Zero-Shot based Fingerprint Presentation Attack Detection System [8.676298469169174]
PADモデルの一般化を保証するため,新しいゼロショット提示検出モデルを提案する。
生成モデルに基づくZSPADモデルでは, 確立過程において負のサンプルを一切利用しない。
本論文では,提案モデルの性能向上のために,9つの信頼性スコアについて論じる。
論文 参考訳(メタデータ) (2020-02-12T10:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。