論文の概要: Overcoming Prior Misspecification in Online Learning to Rank
- arxiv url: http://arxiv.org/abs/2301.10651v1
- Date: Wed, 25 Jan 2023 15:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:02:42.298346
- Title: Overcoming Prior Misspecification in Online Learning to Rank
- Title(参考訳): オンライン学習における事前ミススペクテーションの克服
- Authors: Javad Azizi, Ofer Meshi, Masrour Zoghi, Maryam Karimzadehgan
- Abstract要約: 我々は,前者の要求に適合する適応アルゴリズムを提案し,解析する。
クリックフィードバックに加えてスカラー関連フィードバックも検討する。
合成実験と実世界の実験の両方を用いて,本アルゴリズムの有効性を実証した。
- 参考スコア(独自算出の注目度): 4.665041704405341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent literature on online learning to rank (LTR) has established the
utility of prior knowledge to Bayesian ranking bandit algorithms. However, a
major limitation of existing work is the requirement for the prior used by the
algorithm to match the true prior. In this paper, we propose and analyze
adaptive algorithms that address this issue and additionally extend these
results to the linear and generalized linear models. We also consider scalar
relevance feedback on top of click feedback. Moreover, we demonstrate the
efficacy of our algorithms using both synthetic and real-world experiments.
- Abstract(参考訳): オンライン・ラーニング・トゥ・ランク(LTR)に関する最近の文献は、ベイジアン・ランキング・バンディットアルゴリズムの事前知識の有効性を確立している。
しかし、既存の作業の大きな制限は、アルゴリズムが真に一致させる前に使用する事前の要件である。
本稿では,この問題に対処する適応アルゴリズムの提案と解析を行い,これらの結果を線形および一般化線形モデルに拡張する。
クリックフィードバックに加えてスカラー関連フィードバックも検討する。
さらに, 合成実験と実世界実験の両方を用いて, アルゴリズムの有効性を示す。
関連論文リスト
- A Simple Learning-Augmented Algorithm for Online Packing with Concave Objectives [4.9826534303287335]
本稿では,線形制約付きオンラインパッキング問題に対する単純な学習拡張アルゴリズムの導入と解析を行う。
さらに、このような単純なブラックボックス解が最適である場合に必要かつ十分な条件を理解するという問題を提起する。
論文 参考訳(メタデータ) (2024-06-05T18:39:28Z) - Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。
本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文 参考訳(メタデータ) (2024-03-12T08:40:21Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Adversarial Online Collaborative Filtering [20.931533714651376]
非繰り返し制約下でのオンライン協調フィルタリングの問題点について検討する。
我々は,ユーザ・イテムの選好行列上の二クラスタリング仮定の下で機能するアルゴリズムを設計し,解析する。
このアルゴリズムは,完全適応性を維持しつつ,最適な後悔の保証を示すことを示す。
論文 参考訳(メタデータ) (2023-02-11T19:30:55Z) - Minimalistic Predictions to Schedule Jobs with Online Precedence
Constraints [117.8317521974783]
オンライン優先制約による非サーボ的スケジューリングについて検討する。
アルゴリズムは、任意のジョブ依存に偏りがなく、前任者がすべて完了した場合に限り、ジョブについて学習する。
論文 参考訳(メタデータ) (2023-01-30T13:17:15Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。
本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T21:24:22Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Metalearning Linear Bandits by Prior Update [7.519872646378836]
完全なベイズ的アプローチは、問題のパラメータは既知の事前から生成されると仮定するが、実際にはそのような情報は欠落することが多い。
この問題は、ある部分的な情報を持つ意思決定設定において悪化し、不特定事前の使用は、探索の質が悪く、性能が劣る可能性がある。
この研究において、線形帯域幅とガウス事前の文脈において、事前推定が真の事前に十分近い限り、不特定事前を用いたアルゴリズムの性能は真の先行を用いたアルゴリズムのそれに近いことを証明した。
論文 参考訳(メタデータ) (2021-07-12T11:17:01Z) - The Primal-Dual method for Learning Augmented Algorithms [10.2730668356857]
我々は、オンラインアルゴリズムの原始二重法を拡張し、次のアクションについてオンラインアルゴリズムにアドバイスする予測を組み込む。
我々のアルゴリズムは、予測が正確である場合にも、予測が誤解を招くとき、適切な保証を維持しながら、どのオンラインアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-22T11:58:47Z) - Delay-Adaptive Learning in Generalized Linear Contextual Bandits [18.68458152442088]
遅延設定に適応した2つのよく知られたアルゴリズムの性能について検討する。
本稿では,この2つのアルゴリズムを遅延処理に適応させる方法について述べる。
この結果は,文脈的盗賊文学の広範な景観に寄与する。
論文 参考訳(メタデータ) (2020-03-11T09:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。