Fugu-MT 論文翻訳(概要): Position Paper: Why the Shooting in the Dark Method Dominates Recommender Systems Practice; A Call to Abandon Anti-Utopian Thinking

論文の概要: Position Paper: Why the Shooting in the Dark Method Dominates Recommender Systems Practice; A Call to Abandon Anti-Utopian Thinking

arxiv url: http://arxiv.org/abs/2402.02152v2
Date: Thu, 8 Feb 2024 12:58:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 18:08:20.837070
Title: Position Paper: Why the Shooting in the Dark Method Dominates Recommender Systems Practice; A Call to Abandon Anti-Utopian Thinking
Title（参考訳）: ポジションペーパー:なぜダークメソッドでの銃撃がレコメンダシステムの実践を支配するのか;反ユートピア的思考を捨てようという呼びかけ
Authors: David Rohde
Abstract要約: テストするB'を見つけるためのベストプラクティスは、パフォーマンスを明示的にターゲットするのではなく、プロキシ尺度をターゲットにしている。あるプロキシが他のオフラインよりも優れているかどうかを特定するための原則は存在しません。本稿では,ディープラーニングスタックの非標準利用が,報酬最適化の推奨を解放する可能性を持っていることを論じる。
参考スコア（独自算出の注目度）: 4.124590489579409
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Applied recommender systems research is in a curious position. While there is a very rigorous protocol for measuring performance by A/B testing, best practice for finding a `B' to test does not explicitly target performance but rather targets a proxy measure. The success or failure of a given A/B test then depends entirely on if the proposed proxy is better correlated to performance than the previous proxy. No principle exists to identify if one proxy is better than another offline, leaving the practitioners shooting in the dark. The purpose of this position paper is to question this anti-Utopian thinking and argue that a non-standard use of the deep learning stacks actually has the potential to unlock reward optimizing recommendation.
Abstract（参考訳）: applied recommender systems researchは興味深い立場にある。 A/Bテストによってパフォーマンスを測定するための非常に厳格なプロトコルがあるが、テストする‘B’を見つけるためのベストプラクティスは、パフォーマンスを明示的にターゲットするのではなく、プロキシ測度をターゲットにしている。与えられたA/Bテストの成功または失敗は、提案されたプロキシが以前のプロキシよりもパフォーマンスに相関しているかどうかに完全に依存する。あるプロキシが他のオフラインよりも優れているかどうかを特定するための原則は存在しない。このポジション論文の目的は、この反ユートピア的思考に疑問を呈し、ディープラーニングスタックの非標準的な使用は、実際には報酬最適化の推奨を解き放つ可能性があると主張することである。

関連論文リスト

APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation [26.371939617653084]
生成レコメンデーションは自動回帰生成プロセスであり、ユーザインタラクション履歴に基づいて、次の項目の離散トークンを予測する。既存の生成レコメンデーションモデルは、通常、クロスエントロピー損失のようなトークンレベルの可能性目標で訓練される。標準的なトレーニングでは、推論中にビームサーチが低確率の分岐を産み出すという事実を無視して、地道の歴史が常に利用可能であると仮定している。
論文参考訳（メタデータ） (2026-03-03T08:29:15Z)
ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。 ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文参考訳（メタデータ） (2026-01-15T08:23:38Z)
Inference-Time Reward Hacking in Large Language Models [18.461698175682987]
リワードモデルは、正確性、有用性、安全性などの複雑なデシダータのプロキシとして機能する。不正な報酬を過度に最適化することで、意図したアライメントの目標を覆し、全体的なパフォーマンスを低下させることができる。 HedgeTuneは最適な推論時間パラメータを見つけ、報酬のハッキングを避けるための効率的なアルゴリズムである。
論文参考訳（メタデータ） (2025-06-24T02:05:25Z)
Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文参考訳（メタデータ） (2024-10-08T08:04:09Z)
Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank [64.44255178199846]
本稿では,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供する,PRPO (proximal ranking Policy Optimization) という新しいアプローチを提案する。 PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。実験の結果,PRPOは既存の安全逆性評価手法よりも高い性能を示すことがわかった。
論文参考訳（メタデータ） (2024-09-15T22:22:27Z)
The Nah Bandit: Modeling User Non-compliance in Recommendation Systems [2.421459418045937]
Expert with Clustering(EWC)は、推奨オプションと推奨されないオプションの両方からのフィードバックを取り入れた階層的なアプローチで、ユーザの好み学習を加速する。 EWCは教師付き学習と伝統的な文脈的バンディットアプローチの両方を上回ります。この研究は、より効果的なレコメンデーションシステムのための堅牢なフレームワークを提供する、Nah Banditにおける将来の研究の基礎を築いた。
論文参考訳（メタデータ） (2024-08-15T03:01:02Z)
Shadow-Free Membership Inference Attacks: Recommender Systems Are More Vulnerable Than You Thought [43.490918008927]
本稿では,ユーザによる会員推論の推奨を直接活用するシャドウフリーMIAを提案する。我々の攻撃は、ベースラインよりも偽陽性率の低い攻撃精度をはるかに向上させる。
論文参考訳（メタデータ） (2024-05-11T13:52:22Z)
Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文参考訳（メタデータ） (2024-02-18T10:13:01Z)
Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation [4.389289483635932]
本稿では,eBayの実験プラットフォームのためのベイズバッチブロードバンドアルゴリズムを4つ提案する。新たなWB-TTTSは、固定水平A/Bテストに対する効率的で信頼性が高く、堅牢な代替手段であることを示している。本稿では,中性後部変形のないベイズバンド,特にナイーブ・トンプソン・サンプリング(NB-TS)が常に同等のベストアームから腕を識別できるため,信頼できないことを示す。
論文参考訳（メタデータ） (2023-05-24T04:16:56Z)
Causal Ordering Without Effect Estimation: A Framework for Using Proxies in Treatment Prioritization [3.0509197593879844]
予測プロキシを推論する決定中心のフレームワークを開発する。プロキシが処理効果の優越的なモデレーターを反映した場合に保持する正しい効果順序をプロキシが回復する条件を同定する。これらの条件が、個別選択設定において有用な近似としてどのように現れるかを示し、介入なしに行動する確率が説得を緩やかにすることを示す。
論文参考訳（メタデータ） (2022-06-25T02:15:22Z)
B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。 B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文参考訳（メタデータ） (2021-11-04T17:32:06Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)
Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文参考訳（メタデータ） (2020-06-15T19:24:02Z)
Safe Exploration for Optimizing Contextual Bandits [58.22688545687366]
安全探索アルゴリズム(SEA)による文脈的帯域幅問題に対する新しい学習手法を提案する。 SEAは、ベースライン(または生産)ランキングシステム(つまりポリシー)を使用することから始まる。 SEAは、カウンターファクトラーニングを使用して、ベースラインポリシーの振る舞いに基づいた新しいポリシーを学習する。
論文参考訳（メタデータ） (2020-02-02T19:18:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。