論文の概要: Online Semi-Supervised Learning in Contextual Bandits with Episodic
Reward
- arxiv url: http://arxiv.org/abs/2009.08457v2
- Date: Sun, 25 Oct 2020 03:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 08:08:42.828716
- Title: Online Semi-Supervised Learning in Contextual Bandits with Episodic
Reward
- Title(参考訳): エピソード・リワードを伴う文脈帯域におけるオンライン半教師付き学習
- Authors: Baihan Lin
- Abstract要約: 本稿では,自己スーパービジョンモジュールとしてクラスタリングを簡単に組み込むソリューションとして,バックグラウンド・エピソード・リワード・LinUCB(UCB)を紹介する。
6つのシナリオの静止環境と非定常環境の両方において,提案手法の利点を実証した。
- 参考スコア(独自算出の注目度): 13.173307471333619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We considered a novel practical problem of online learning with episodically
revealed rewards, motivated by several real-world applications, where the
contexts are nonstationary over different episodes and the reward feedbacks are
not always available to the decision making agents. For this online
semi-supervised learning setting, we introduced Background Episodic Reward
LinUCB (BerlinUCB), a solution that easily incorporates clustering as a
self-supervision module to provide useful side information when rewards are not
observed. Our experiments on a variety of datasets, both in stationary and
nonstationary environments of six different scenarios, demonstrated clear
advantages of the proposed approach over the standard contextual bandit.
Lastly, we introduced a relevant real-life example where this problem setting
is especially useful.
- Abstract(参考訳): いくつかの実世界のアプリケーションによって動機づけられた,オンライン学習の新たな実践的問題として,異なるエピソードに対して文脈が不定常であり,報酬フィードバックが必ずしも意思決定エージェントに提供されるとは限らない。
このオンライン半教師あり学習環境では,自己スーパービジョンモジュールとしてクラスタリングを容易に組み込んだBerlinUCB(Backside Episodic Reward LinUCB)を導入し,報奨が得られない場合に有用なサイド情報を提供する。
6つの異なるシナリオの定常環境と非定常環境での様々なデータセットに関する実験は、標準的なコンテキストバンディットに対する提案手法の明確な利点を示しました。
最後に、この問題設定が特に有用である関連する実例を紹介した。
関連論文リスト
- Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms [23.61332577985059]
逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。
本稿では、オフライン設定の機会と限界を捉えた、実現可能な報酬セットという新しい概念を紹介する。
論文 参考訳(メタデータ) (2024-02-23T15:49:46Z) - Random Representations Outperform Online Continually Learned Representations [68.42776779425978]
既存のオンライン学習深層ネットワークは、単純な事前定義されたランダム変換に比べて劣った表現を生成することを示す。
我々の手法はRanDumbと呼ばれ、あらゆるオンライン連続学習ベンチマークにおいて、最先端の学習表現を著しく上回っている。
本研究は, 表現学習の大きな限界, 特に低経験, オンライン連続学習のシナリオについて明らかにした。
論文 参考訳(メタデータ) (2024-02-13T22:07:29Z) - Point Contrastive Prediction with Semantic Clustering for
Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。
本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文 参考訳(メタデータ) (2023-08-18T02:17:47Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Online Semi-Supervised Learning with Bandit Feedback [45.899239661737795]
半教師付き学習と文脈的包帯の交点における新しい問題を定式化する。
半教師付き学習手法であるグラフ畳み込みネットワーク(GCN)が,新たな問題定式化に適応できることを実証する。
論文 参考訳(メタデータ) (2020-10-23T17:56:38Z) - Few-Shot Unsupervised Continual Learning through Meta-Examples [21.954394608030388]
教師なしメタコンチネンタル学習とタスクのバランスが取れない新しい複雑な設定を導入する。
我々は、破滅的な忘れを同時に軽減し、新しいタスクへの一般化を優先するメタラーニング手法を利用する。
数ショットの学習ベンチマークによる実験結果から, 教師付きケースと比較して, 競争性能が向上した。
論文 参考訳(メタデータ) (2020-09-17T07:02:07Z) - Contextual Bandit with Missing Rewards [27.066965426355257]
文脈に基づく決定に関連付けられた報酬が必ずしも観測されないような、文脈的包帯問題の新しい変種を考察する。
この新しい問題は、臨床試験や広告レコメンデーションアプリケーションを含む特定のオンライン設定によって動機付けられている。
本稿では,クラスタリングのような教師なし学習機構と,標準的な文脈的帯域幅アプローチを組み合わせることを提案する。
論文 参考訳(メタデータ) (2020-07-13T13:29:51Z) - Wandering Within a World: Online Contextualized Few-Shot Learning [62.28521610606054]
我々は、数ショット学習の標準フレームワークをオンライン環境に拡張することで、一般的な人間と機械学習環境のギャップを埋めることを目指している。
本研究では,世界中をさまようエージェントの視覚体験を模倣した大規模な屋内画像に基づく,新しいプロトタイプによる数ショット学習を提案する。
論文 参考訳(メタデータ) (2020-07-09T04:05:04Z) - Dark Experience for General Continual Learning: a Strong, Simple
Baseline [18.389103500859804]
タスク境界が曖昧になり,ドメインやクラス分布が徐々に,あるいは突然に変化するような,汎用連続学習(General Continual Learning, GCL)に向かっています。
我々の単純なベースラインであるダークエクスペリエンス・リプレイは、最適化軌道を通してサンプリングされたネットワークのログと一致します。
標準ベンチマークと新しいGCL評価設定(MNIST-360)の両方を広範囲に解析することにより、このような単純なベースラインが統合されたアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-15T17:13:05Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。