論文の概要: Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble
Sampling
- arxiv url: http://arxiv.org/abs/2310.07786v1
- Date: Wed, 11 Oct 2023 18:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 11:40:10.375189
- Title: Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble
Sampling
- Title(参考訳): ニューラル予測アンサンブルサンプリングによる非定常文脈バンディット学習
- Authors: Zheqing Zhu, Yueyang Liu, Xu Kuang, Benjamin Van Roy
- Abstract要約: 文脈的包帯の現実世界の応用は、季節性、セレンディピティー、進化する社会トレンドによって、しばしば非定常性を示す。
これらの問題に対処する新しい非定常文脈帯域幅アルゴリズムを提案する。
スケーラブルでディープ・ニューラル・ネットワークベースのアーキテクチャと、慎重に設計された探索機構を組み合わせる。
- 参考スコア(独自算出の注目度): 15.88678122212934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world applications of contextual bandits often exhibit non-stationarity
due to seasonality, serendipity, and evolving social trends. While a number of
non-stationary contextual bandit learning algorithms have been proposed in the
literature, they excessively explore due to a lack of prioritization for
information of enduring value, or are designed in ways that do not scale in
modern applications with high-dimensional user-specific features and large
action set, or both. In this paper, we introduce a novel non-stationary
contextual bandit algorithm that addresses these concerns. It combines a
scalable, deep-neural-network-based architecture with a carefully designed
exploration mechanism that strategically prioritizes collecting information
with the most lasting value in a non-stationary environment. Through empirical
evaluations on two real-world recommendation datasets, which exhibit pronounced
non-stationarity, we demonstrate that our approach significantly outperforms
the state-of-the-art baselines.
- Abstract(参考訳): 文脈的包帯の現実世界の応用は、季節性、セレンディピティー、進化する社会的傾向によって、しばしば非定常性を示す。
文献では、多くの非定常文脈帯域学習アルゴリズムが提案されているが、持続的価値の情報に対する優先順位付けの欠如による過度な探索や、高次元のユーザ固有の特徴と大きなアクションセットを持つ現代のアプリケーションではスケールしない方法で設計されている。
本稿では,これらの問題に対処する新しい非定常文脈バンディットアルゴリズムを提案する。
スケーラブルでディープニューラルネットワークベースのアーキテクチャと、非定常環境において最も永続的な価値を持つ情報収集を戦略的に優先する、注意深く設計された探索メカニズムを組み合わせる。
非定常性を示す2つの実世界のレコメンデーションデータセットの実証評価を通じて、我々のアプローチが最先端のベースラインを大きく上回っていることを示す。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Follow-ups Also Matter: Improving Contextual Bandits via Post-serving
Contexts [31.33919659549256]
本稿では,ポストサーベイング・コンテクストに対する新しい文脈的バンディット問題を提案する。
我々のアルゴリズムである poLinUCB は、標準的な仮定の下では、厳格に後悔する。
合成データセットと実世界のデータセットの両方に対する大規模な実証テストは、サービス後コンテキストを活用するという大きなメリットを示している。
論文 参考訳(メタデータ) (2023-09-25T06:22:28Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Online learning in bandits with predicted context [8.257280652461159]
エージェントがコンテキストの騒々しいバージョンにしかアクセスできない場合、コンテキスト的帯域幅の問題を考える。
この設定は、意思決定の真のコンテキストが守られない広範囲のアプリケーションによって動機付けられている。
本研究では,この設定において,軽度条件下でのサブ線形後悔保証を用いた最初のオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-26T02:33:54Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - An Empirical Evaluation of Federated Contextual Bandit Algorithms [27.275089644378376]
フェデレートされた学習は、ユーザが関心のあるアプリケーションと対話するときに生成される暗黙の信号を使って行うことができる。
我々は,フェデレートされた設定のための集中的な設定から,顕著な文脈的帯域幅アルゴリズムの変種を開発する。
本実験は, 探索・探索のトレードオフのバランスをとる上で, シンプルで一般的なソフトマックスの驚くべき有効性を明らかにした。
論文 参考訳(メタデータ) (2023-03-17T19:22:30Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Top-K Ranking Deep Contextual Bandits for Information Selection Systems [0.0]
本稿では,文脈的マルチアーム・バンディット・フレームワークに基づくトップKランキングに対する新しいアプローチを提案する。
ニューラルネットワークを用いて報酬関数をモデル化し、非線形近似を用いて報酬と文脈の関係を学習する。
論文 参考訳(メタデータ) (2022-01-28T15:10:44Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - Recurrent Neural-Linear Posterior Sampling for Nonstationary Contextual
Bandits [9.877980800275507]
本稿では,エージェントと環境間のインタラクションの生履歴のみに基づいて,意思決定の関連状況を表現する手法を提案する。
このアプローチは、リカレントニューラルネットワークによって抽出された特徴と、後続サンプリングに基づく文脈線形帯域アルゴリズムの組み合わせに依存する。
論文 参考訳(メタデータ) (2020-07-09T12:46:51Z) - Seismic horizon detection with neural networks [62.997667081978825]
本稿では,複数の実地震立方体上での地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
本研究の主な貢献は,複数実地震立方体における地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
論文 参考訳(メタデータ) (2020-01-10T11:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。