論文の概要: Time-Variant Variational Transfer for Value Functions
- arxiv url: http://arxiv.org/abs/2005.12864v2
- Date: Thu, 18 Jun 2020 13:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:40:15.430941
- Title: Time-Variant Variational Transfer for Value Functions
- Title(参考訳): 値関数に対する時間変化変動伝達
- Authors: Giuseppe Canonaco, Andrea Soprani, Manuel Roveri, Marcello Restelli
- Abstract要約: 本稿では,タスクを生成する分布が時間変動である場合に,値関数を変動的手法で転送する問題を考察する。
本稿では,3つの異なる強化学習環境において,3つの時間的ダイナミクスを持つ提案手法の実験的評価を行う。
- 参考スコア(独自算出の注目度): 36.07719642423388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In most of the transfer learning approaches to reinforcement learning (RL)
the distribution over the tasks is assumed to be stationary. Therefore, the
target and source tasks are i.i.d. samples of the same distribution. In the
context of this work, we consider the problem of transferring value functions
through a variational method when the distribution that generates the tasks is
time-variant, proposing a solution that leverages this temporal structure
inherent in the task generating process. Furthermore, by means of a
finite-sample analysis, the previously mentioned solution is theoretically
compared to its time-invariant version. Finally, we will provide an
experimental evaluation of the proposed technique with three distinct temporal
dynamics in three different RL environments.
- Abstract(参考訳): 伝達学習による強化学習(RL)のほとんどの場合、タスクの分布は定常的であると仮定される。
したがって、ターゲットタスクとソースタスクは同じ分布のサンプルである。
本研究の文脈では,タスクを生成する分布が時間変動である場合に,タスク生成プロセスに固有のこの時間構造を利用する解を提案するとき,値関数を変動的手法で転送する問題を考察する。
さらに、有限サンプル解析により、上記の解は理論的にその時間不変バージョンと比較される。
最後に、3つの異なるRL環境における3つの異なる時間的ダイナミクスを用いて,提案手法の実験的評価を行う。
関連論文リスト
- Probabilistic Inference in the Era of Tensor Networks and Differential Programming [3.9316145917872234]
確率的グラフィカルモデル(PGM)における多くの一般的な推論タスクは、まだ対応するテンソルネットワーク(TN)ベースの適応を欠いている。
本研究では,以下の推論タスクに対してテンソルベースの解を定式化し,実装することにより,PGMとTNの接続を推し進める。
我々の研究は、量子回路シミュレーション、量子多体物理学、統計物理学の分野における最近の技術進歩によって動機付けられている。
論文 参考訳(メタデータ) (2024-05-22T23:09:57Z) - Information-Theoretic State Variable Selection for Reinforcement
Learning [4.2050490361120465]
本稿では,情報理論的基準であるTransfer Entropy Redundancy Criterion (TERC)を紹介する。
TERCは、トレーニング中に状態変数からアクションに転送されるテクステントロピーがあるかどうかを判断する。
エージェントの最終性能に影響を与えない状態から変数を確実に排除する TERC に基づくアルゴリズムを定義する。
論文 参考訳(メタデータ) (2024-01-21T14:51:09Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - Semi-supervised Learning of Partial Differential Operators and Dynamical
Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。
本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。
その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文 参考訳(メタデータ) (2022-07-28T19:59:14Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。