論文の概要: A New Representation of Successor Features for Transfer across
Dissimilar Environments
- arxiv url: http://arxiv.org/abs/2107.08426v1
- Date: Sun, 18 Jul 2021 12:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 04:07:11.913062
- Title: A New Representation of Successor Features for Transfer across
Dissimilar Environments
- Title(参考訳): 異種環境間の転送のための新しい後継機能表現
- Authors: Majid Abdolshah, Hung Le, Thommen Karimpanal George, Sunil Gupta,
Santu Rana, Svetha Venkatesh
- Abstract要約: 多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
- 参考スコア(独自算出の注目度): 60.813074750879615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer in reinforcement learning is usually achieved through generalisation
across tasks. Whilst many studies have investigated transferring knowledge when
the reward function changes, they have assumed that the dynamics of the
environments remain consistent. Many real-world RL problems require transfer
among environments with different dynamics. To address this problem, we propose
an approach based on successor features in which we model successor feature
functions with Gaussian Processes permitting the source successor features to
be treated as noisy measurements of the target successor feature function. Our
theoretical analysis proves the convergence of this approach as well as the
bounded error on modelling successor feature functions with Gaussian Processes
in environments with both different dynamics and rewards. We demonstrate our
method on benchmark datasets and show that it outperforms current baselines.
- Abstract(参考訳): 強化学習の移動は通常、タスク間の一般化によって達成される。
多くの研究が報酬関数が変化したときの知識の伝達を研究しているが、彼らは環境のダイナミクスは一貫していると仮定している。
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間の移動を必要とする。
この問題に対処するために,ガウス過程を用いた後継特徴関数をモデル化し,対象の後継特徴関数のノイズ測定としてソース後継特徴関数を扱えるようにする手法を提案する。
我々の理論的解析は、異なるダイナミクスと報酬を持つ環境におけるガウス過程を用いた後続特徴関数のモデル化における有界誤差と同様に、このアプローチの収束を証明している。
本手法をベンチマークデータセットで実証し,現在のベースラインよりも優れていることを示す。
関連論文リスト
- Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Meta-models for transfer learning in source localisation [3.8922067105369154]
この研究は、(メタモデルとして)AE実験間の相互依存性を捉えることを目的としている。
ハイレベルなメタモデルがタスク間関係をキャプチャするベイズ的マルチレベルアプローチを利用する。
主要な貢献は、実験的なキャンペーンの知識をタスクとタスクの間でエンコードする方法である。
論文 参考訳(メタデータ) (2023-05-15T14:02:35Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Functional Space Analysis of Local GAN Convergence [26.985600125290908]
一般機能空間における対向訓練の局所的ダイナミクスについて検討する。
偏微分方程式の系としてどのように表現できるかを示す。
我々の視点では、GANの安定化によく使われる実践的なトリックについて、いくつかの洞察が得られている。
論文 参考訳(メタデータ) (2021-02-08T18:59:46Z) - Group Equivariant Deep Reinforcement Learning [4.997686360064921]
我々は、RLエージェントの訓練に同変CNNを用い、変換同変Q値近似のための誘導バイアスについて検討する。
我々は,RLエージェントの性能と試料効率を高対称な環境下で劇的に向上させることを実証した。
論文 参考訳(メタデータ) (2020-07-01T02:38:48Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。