論文の概要: Bayesian Experience Reuse for Learning from Multiple Demonstrators
- arxiv url: http://arxiv.org/abs/2006.05725v1
- Date: Wed, 10 Jun 2020 08:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:04:19.771536
- Title: Bayesian Experience Reuse for Learning from Multiple Demonstrators
- Title(参考訳): 複数のデモから学ぶベイズ経験
- Authors: Michael Gimelfarb, Scott Sanner, Chi-Guhn Lee
- Abstract要約: デモンストレーション(LfD)からの学習は、専門家によるデモンストレーションを取り入れることで、学習エージェントの探索効率を向上させる。
本研究では、正規逆ガンマ前駆体を用いて、ソースおよびターゲットタスク関数の不確かさをモデル化することで、この問題に対処する。
我々は、この学習された信念を用いて、解がエキスパートモデルに確率分布をもたらす二次的プログラミング問題を導出する。
- 参考スコア(独自算出の注目度): 24.489002406693128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from demonstrations (LfD) improves the exploration efficiency of a
learning agent by incorporating demonstrations from experts. However,
demonstration data can often come from multiple experts with conflicting goals,
making it difficult to incorporate safely and effectively in online settings.
We address this problem in the static and dynamic optimization settings by
modelling the uncertainty in source and target task functions using
normal-inverse-gamma priors, whose corresponding posteriors are, respectively,
learned from demonstrations and target data using Bayesian neural networks with
shared features. We use this learned belief to derive a quadratic programming
problem whose solution yields a probability distribution over the expert
models. Finally, we propose Bayesian Experience Reuse (BERS) to sample
demonstrations in accordance with this distribution and reuse them directly in
new tasks. We demonstrate the effectiveness of this approach for static
optimization of smooth functions, and transfer learning in a high-dimensional
supply chain problem with cost uncertainty.
- Abstract(参考訳): 実演からの学習(lfd)は、専門家のデモンストレーションを取り入れることで、学習エージェントの探索効率を向上させる。
しかし、デモデータは相反する目標を持つ複数の専門家から来ることが多く、オンライン設定に安全かつ効果的に組み込むのが困難である。
本稿では,静的および動的最適化設定において,正規逆ガンマ前駆体を用いて対象タスク関数の不確かさをモデル化することでこの問題に対処し,共通特徴を持つベイズ型ニューラルネットワークを用いた実演と対象データから対応する事後関係を学習する。
この学習された信念を用いて、解がエキスパートモデルに確率分布をもたらす二次プログラミング問題を導出する。
最後に,この分布に応じて実演をサンプル化し,それらを新しいタスクで直接再利用するために,Bayesian Experience Reuse (BERS)を提案する。
コスト不確実性のある高次元サプライチェーン問題において,滑らかな関数の静的最適化と伝達学習に本手法の有効性を示す。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Inverse Reinforcement Learning by Estimating Expertise of Demonstrators [18.50354748863624]
IRLEED(Inverse Reinforcement Learning by Estimating Expertise of Demonstrators)は、実証者の専門知識の事前知識なしにハードルを克服する新しいフレームワークである。
IRLEEDは既存の逆強化学習(IRL)アルゴリズムを強化し、報酬バイアスと行動分散に対処するために、実証者準最適性のための一般的なモデルを組み合わせる。
オンラインおよびオフラインのIL設定、シミュレーションと人為的なデータによる実験は、IRLEEDの適応性と有効性を示している。
論文 参考訳(メタデータ) (2024-02-02T20:21:09Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - One-Shot Federated Learning with Classifier-Guided Diffusion Models [44.604485649167216]
ワンショット・フェデレーション・ラーニング (OSFL) は, 通信コストの低さから近年注目されている。
本稿では,OSFLに拡散モデルがもたらす新たな機会を探求し,FedCADOを提案する。
FedCADOはクライアントのディストリビューションに準拠したデータを生成し、その後、サーバ上で集約されたモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-11-15T11:11:25Z) - Pre-trained Recommender Systems: A Causal Debiasing Perspective [19.712997823535066]
本研究では,異なるドメインから抽出した汎用ユーザ・イテムインタラクションデータをトレーニングすることで,ユニバーサルインタラクションパターンをキャプチャする汎用レコメンデータを開発する。
実験により,提案モデルにより,ゼロショットと少数ショットの学習環境での推薦性能が大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-30T03:37:32Z) - Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。
我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文 参考訳(メタデータ) (2021-06-14T15:40:51Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。