論文の概要: Contextual Bandits for adapting to changing User preferences over time
- arxiv url: http://arxiv.org/abs/2009.10073v2
- Date: Wed, 23 Sep 2020 06:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:32:51.225745
- Title: Contextual Bandits for adapting to changing User preferences over time
- Title(参考訳): 時間とともにユーザの好みを変えるためのコンテキストバンディット
- Authors: Dattaraj Rao
- Abstract要約: コンテキストブレイディットは、オンライン(インクリメンタル)学習を活用することで、MLの動的データ問題をモデル化する効果的な方法を提供する。
我々は,行動に基づく学習者の配列を用いて,この問題を解決する新しいアルゴリズムを構築した。
我々は、標準のMine Lensデータセットから異なるユーザーによって、時間の経過とともに映画のレーティングを予測するためにこのアプローチを適用する。
- 参考スコア(独自算出の注目度): 0.4061135251278187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandits provide an effective way to model the dynamic data problem
in ML by leveraging online (incremental) learning to continuously adjust the
predictions based on changing environment. We explore details on contextual
bandits, an extension to the traditional reinforcement learning (RL) problem
and build a novel algorithm to solve this problem using an array of
action-based learners. We apply this approach to model an article
recommendation system using an array of stochastic gradient descent (SGD)
learners to make predictions on rewards based on actions taken. We then extend
the approach to a publicly available MovieLens dataset and explore the
findings. First, we make available a simplified simulated dataset showing
varying user preferences over time and how this can be evaluated with static
and dynamic learning algorithms. This dataset made available as part of this
research is intentionally simulated with limited number of features and can be
used to evaluate different problem-solving strategies. We will build a
classifier using static dataset and evaluate its performance on this dataset.
We show limitations of static learner due to fixed context at a point of time
and how changing that context brings down the accuracy. Next we develop a novel
algorithm for solving the contextual bandit problem. Similar to the linear
bandits, this algorithm maps the reward as a function of context vector but
uses an array of learners to capture variation between actions/arms. We develop
a bandit algorithm using an array of stochastic gradient descent (SGD)
learners, with separate learner per arm. Finally, we will apply this contextual
bandit algorithm to predicting movie ratings over time by different users from
the standard Movie Lens dataset and demonstrate the results.
- Abstract(参考訳): 文脈帯域幅は、オンライン(インクリメンタル)学習を利用して、変化する環境に基づいて予測を継続的に調整することにより、MLの動的データ問題をモデル化する効果的な方法を提供する。
従来の強化学習(rl)問題の拡張であるコンテキストバンディットの詳細を調査し,この問題を解決するための新しいアルゴリズムを,アクションベースの学習者群を用いて構築する。
本稿では,確率勾配降下(SGD)学習者による記事推薦システムをモデル化し,行動に基づく報酬の予測を行う。
次に、アプローチを公開可能なMovieLensデータセットに拡張し、その結果を調査します。
まず,ユーザ嗜好の変化を示す簡易シミュレーションデータセットと,静的および動的学習アルゴリズムを用いて評価する方法を提案する。
この研究の一部として利用可能なデータセットは、意図的に限られた数の機能でシミュレートされ、異なる問題解決戦略を評価するために使用できる。
静的データセットを用いた分類器を構築し,このデータセット上での性能評価を行う。
本研究では,ある時点における固定コンテキストによる静的学習者の制限と,そのコンテキストの変化がいかに精度を低下させるかを示す。
次に,コンテキストバンディット問題を解決する新しいアルゴリズムを開発した。
線形帯域幅と同様、このアルゴリズムは報酬を文脈ベクトルの関数としてマッピングするが、学習者の配列を用いてアクション/アーム間の変動をキャプチャする。
本研究では,確率勾配降下(sgd)学習者の配列を用いたバンディットアルゴリズムを開発した。
最後に、この文脈的帯域幅アルゴリズムを適用し、標準のMovie Lensデータセットから異なるユーザによる映画評価の時間的予測を行い、その結果を実証する。
関連論文リスト
- Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Context-Aware Ensemble Learning for Time Series [11.716677452529114]
本稿では,ベースモデルの特徴ベクトルの結合である特徴のスーパーセットを用いて,ベースモデル予測を効果的に組み合わせたメタ学習手法を提案する。
我々のモデルは、ベースモデルの予測を機械学習アルゴリズムの入力として使用するのではなく、問題の状態に基づいて各時点における最良の組み合わせを選択する。
論文 参考訳(メタデータ) (2022-11-30T10:36:13Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Contextual Bandits in a Survey Experiment on Charitable Giving:
Within-Experiment Outcomes versus Policy Learning [21.9468085255912]
我々は,対象とする治療課題ポリシーを学習するための適応的な実験(文脈的帯域幅')を設計し,実装する。
目的は、参加者のアンケート回答を使用して、寄付募集においてどの慈善団体に公開するかを決定することである。
パイロットデータを収集し, シミュレーション実験を行うことにより, 代替実験設計の評価を行った。
論文 参考訳(メタデータ) (2022-11-22T04:44:17Z) - Making Look-Ahead Active Learning Strategies Feasible with Neural
Tangent Kernels [6.372625755672473]
本稿では,仮説的ラベル付き候補データを用いた再学習に基づく,能動的学習獲得戦略の近似手法を提案する。
通常、これはディープ・ネットワークでは実現できないが、我々はニューラル・タンジェント・カーネルを用いて再トレーニングの結果を近似する。
論文 参考訳(メタデータ) (2022-06-25T06:13:27Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。