論文の概要: Uncertainty-aware transfer across tasks using hybrid model-based
successor feature reinforcement learning
- arxiv url: http://arxiv.org/abs/2310.10818v1
- Date: Mon, 16 Oct 2023 20:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:57:09.406077
- Title: Uncertainty-aware transfer across tasks using hybrid model-based
successor feature reinforcement learning
- Title(参考訳): ハイブリッドモデルに基づく後継機能強化学習によるタスク間の不確実性認識伝達
- Authors: Parvin Malekzadeh, Ming Hou, and Konstantinos N. Plataniotis
- Abstract要約: 各アクションの値の不確実性は、カルマンフィルタ(KF)ベースの多重モデル適応推定によって近似される。
我々のアルゴリズムは、異なる遷移力学の知識を一般化し、スクラッチから始めるよりもはるかに少ないサンプルで下流タスクを学習し、既存のアプローチより優れています。
- 参考スコア(独自算出の注目度): 18.80906316352317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample efficiency is central to developing practical reinforcement learning
(RL) for complex and large-scale decision-making problems. The ability to
transfer and generalize knowledge gained from previous experiences to
downstream tasks can significantly improve sample efficiency. Recent research
indicates that successor feature (SF) RL algorithms enable knowledge
generalization between tasks with different rewards but identical transition
dynamics. It has recently been hypothesized that combining model-based (MB)
methods with SF algorithms can alleviate the limitation of fixed transition
dynamics. Furthermore, uncertainty-aware exploration is widely recognized as
another appealing approach for improving sample efficiency. Putting together
two ideas of hybrid model-based successor feature (MB-SF) and uncertainty leads
to an approach to the problem of sample efficient uncertainty-aware knowledge
transfer across tasks with different transition dynamics or/and reward
functions. In this paper, the uncertainty of the value of each action is
approximated by a Kalman filter (KF)-based multiple-model adaptive estimation.
This KF-based framework treats the parameters of a model as random variables.
To the best of our knowledge, this is the first attempt at formulating a hybrid
MB-SF algorithm capable of generalizing knowledge across large or continuous
state space tasks with various transition dynamics while requiring less
computation at decision time than MB methods. The number of samples required to
learn the tasks was compared to recent SF and MB baselines. The results show
that our algorithm generalizes its knowledge across different transition
dynamics, learns downstream tasks with significantly fewer samples than
starting from scratch, and outperforms existing approaches.
- Abstract(参考訳): サンプル効率は、複雑かつ大規模な意思決定問題に対する実践的強化学習(RL)の開発の中心である。
以前の経験から得られた知識をダウンストリームタスクに移し、一般化する能力は、サンプル効率を大幅に改善することができる。
近年の研究では、後継機能(SF)RLアルゴリズムは、異なる報酬を持つタスク間の知識一般化を可能にするが、遷移ダイナミクスは同一である。
近年、モデルベース(MB)法とSFアルゴリズムを組み合わせることで、固定遷移力学の限界を緩和できると仮定されている。
さらに, 不確実性認識探索は, サンプル効率向上のための別の魅力的なアプローチとして広く認識されている。
ハイブリッドモデルベースの後継機能(MB-SF)と不確実性(不確実性)の2つのアイデアを組み合わせることで、異なる遷移ダイナミクスや報酬関数を持つタスク間の効率的な不確実性を考慮した知識伝達の問題へのアプローチにつながる。
本稿では,各動作の値の不確かさをカルマンフィルタ(kf)に基づく多重モデル適応推定によって近似する。
このKFベースのフレームワークは、モデルのパラメータをランダム変数として扱う。
私たちの知る限りでは、これはmb法よりも少ない計算を必要とせず、様々な遷移ダイナミクスを持つ大規模または連続的な状態空間タスクにまたがる知識を一般化できるハイブリッドmb-sfアルゴリズムを定式化する最初の試みである。
タスクの学習に必要なサンプル数は、最近のSFやMBベースラインと比較された。
その結果,本アルゴリズムは,異なる遷移力学の知識を一般化し,スクラッチから始めるよりもはるかに少ないサンプルで下流タスクを学習し,既存のアプローチよりも優れていた。
関連論文リスト
- FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。
バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。
また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:15:55Z) - H-ensemble: An Information Theoretic Approach to Reliable Few-Shot
Multi-Source-Free Transfer [4.328706834250445]
本稿では,対象タスクに対するソースモデルの最適線形結合を学習するHアンサンブル(H-ensemble)というフレームワークを提案する。
H-アンサンブルは,1)少数の目標タスクに対する新しいMSF設定への適応性,2)理論的信頼性,3)解釈や適応が容易な軽量構造を特徴とする。
我々は,Hアンサンブルが最適なタスクアンサンブルを学習し,先行技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-19T17:39:34Z) - A Latent Variable Approach for Non-Hierarchical Multi-Fidelity Adaptive
Sampling [18.02518660778453]
資源を忠実度モデル間で動的に割り当てるアダプティブサンプリング手法は、設計空間の探索と活用において高い効率を達成することができる。
本稿では,異なる忠実度モデルに対する潜伏埋め込みとそれに関連する事前解析に基づいて,それらの相関関係を適応サンプリングに明示的に活用するフレームワークを提案する。
提案手法は,MFグローバルフィッティング(GF)とベイズ最適化(BO)の両問題において,収束率とロバスト性においてベンチマーク法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T03:56:09Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。