論文の概要: Leveraging Demonstrations to Improve Online Learning: Quality Matters
- arxiv url: http://arxiv.org/abs/2302.03319v4
- Date: Wed, 17 May 2023 17:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 11:50:38.620369
- Title: Leveraging Demonstrations to Improve Online Learning: Quality Matters
- Title(参考訳): オンライン学習を改善するためのデモの活用 - 品質上の問題
- Authors: Botao Hao, Rahul Jain, Tor Lattimore, Benjamin Van Roy, Zheng Wen
- Abstract要約: 改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 54.98983862640944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the extent to which offline demonstration data can improve
online learning. It is natural to expect some improvement, but the question is
how, and by how much? We show that the degree of improvement must depend on the
quality of the demonstration data. To generate portable insights, we focus on
Thompson sampling (TS) applied to a multi-armed bandit as a prototypical online
learning algorithm and model. The demonstration data is generated by an expert
with a given competence level, a notion we introduce. We propose an informed TS
algorithm that utilizes the demonstration data in a coherent way through Bayes'
rule and derive a prior-dependent Bayesian regret bound. This offers insight
into how pretraining can greatly improve online performance and how the degree
of improvement increases with the expert's competence level. We also develop a
practical, approximate informed TS algorithm through Bayesian bootstrapping and
show substantial empirical regret reduction through experiments.
- Abstract(参考訳): オフラインデモデータがオンライン学習をいかに改善できるかを検討する。
改善を期待するのは当然ですが、問題なのは、どのように、そしてどの程度で?
改善の度合いは実演データの品質に左右されることが示されている。
ポータブルな洞察を生み出すために,多腕バンディットに適用したトンプソンサンプリング (ts) に着目し,オンライン学習アルゴリズムとモデルを開発した。
デモデータは、与えられた能力レベル、つまり導入する概念を持つ専門家によって生成される。
本稿では,ベイズの規則を通したコヒーレントな方法で実演データを活用し,事前依存ベイズ後悔境界を導出するインフォームドtsアルゴリズムを提案する。
これにより、事前トレーニングがオンラインパフォーマンスを大幅に向上させる方法と、専門家の能力レベルによって改善の度合いが向上する方法についての洞察が得られる。
また,実用的で近似的なtsアルゴリズムをベイズブートストラップを用いて開発し,実験による経験的後悔の軽減を示す。
関連論文リスト
- DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Random Representations Outperform Online Continually Learned Representations [68.42776779425978]
既存のオンライン学習深層ネットワークは、単純な事前定義されたランダム変換に比べて劣った表現を生成することを示す。
我々の手法はRanDumbと呼ばれ、あらゆるオンライン連続学習ベンチマークにおいて、最先端の学習表現を著しく上回っている。
本研究は, 表現学習の大きな限界, 特に低経験, オンライン連続学習のシナリオについて明らかにした。
論文 参考訳(メタデータ) (2024-02-13T22:07:29Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - A Comprehensive Empirical Evaluation on Online Continual Learning [20.39495058720296]
オンライン連続学習に取り組む文献から手法を評価する。
画像分類の文脈におけるクラスインクリメンタル設定に焦点をあてる。
これらの手法をSplit-CIFAR100とSplit-TinyImagenetベンチマークで比較する。
論文 参考訳(メタデータ) (2023-08-20T17:52:02Z) - Data Quality in Imitation Learning [15.939363481618738]
ロボット工学のオフライン学習では、インターネットのスケールデータがないだけで、高品質なデータセットが必要なのです。
これは特に、専門家によるデモンストレーションを用いたロボット学習のためのサンプル効率のよいパラダイムである模倣学習(IL)において当てはまる。
本研究では,分散シフトのレンズによる模倣学習のためのデータ品質の形式化に向けた第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-06-04T18:48:32Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。