論文の概要: A Cantor-Kantorovich Metric Between Markov Decision Processes with Application to Transfer Learning
- arxiv url: http://arxiv.org/abs/2407.08324v1
- Date: Thu, 11 Jul 2024 09:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:09:27.576409
- Title: A Cantor-Kantorovich Metric Between Markov Decision Processes with Application to Transfer Learning
- Title(参考訳): マルコフ決定過程間のカントール・カントロビッチ距離と伝達学習への応用
- Authors: Adrien Banse, Venkatraman Renganathan, Raphaël M. Jungers,
- Abstract要約: 我々は(Banse et al., 2023)によって導入されたマルコフ鎖間のカントール・カントロヴィチ距離の概念を拡張する。
提案した計量はよく定義されており、有限の地平線から効率的に近似することができる。
特に,転送学習アルゴリズムの性能予測に有効であることを示す。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend the notion of Cantor-Kantorovich distance between Markov chains introduced by (Banse et al., 2023) in the context of Markov Decision Processes (MDPs). The proposed metric is well-defined and can be efficiently approximated given a finite horizon. Then, we provide numerical evidences that the latter metric can lead to interesting applications in the field of reinforcement learning. In particular, we show that it could be used for forecasting the performance of transfer learning algorithms.
- Abstract(参考訳): 我々は(Banse et al , 2023)によって導入されたマルコフ連鎖間のカントール・カントロヴィチ距離の概念をマルコフ決定過程(MDP)の文脈で拡張する。
提案した計量はよく定義されており、有限の地平線から効率的に近似することができる。
そして、後者の計量が強化学習の分野で興味深い応用につながるという数値的な証拠を提供する。
特に,転送学習アルゴリズムの性能予測に有効であることを示す。
関連論文リスト
- Robust Q-Learning for finite ambiguity sets [2.3020018305241337]
分布的に堅牢なマルコフ決定問題を解くための新しい$Q$-learningアルゴリズムを提案する。
我々のアプローチは、ある基準測度の周りの球のあいまいさ集合を含むよく研究されたケースを越えている。
論文 参考訳(メタデータ) (2024-07-05T05:19:36Z) - A Kernel Perspective on Behavioural Metrics for Markov Decision
Processes [23.51190624144022]
本稿では,マルコフ決定過程の行動指標について,正定値カーネルを用いて新たな視点を示す。
我々は最近導入されたMICo距離と確実に等価な新しい計量を定義する。
論文 参考訳(メタデータ) (2023-10-05T20:44:57Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - A Tutorial Introduction to Reinforcement Learning [1.9544213396776275]
本稿では,強化学習(Reinforcement Learning, RL)の簡単な調査について述べる。
論文の範囲にはMarkov Reward Processes、Markov Decision Processes、近似アルゴリズム、時間差分学習や$Q$-learningといった広く使われているアルゴリズムが含まれる。
論文 参考訳(メタデータ) (2023-04-03T08:50:58Z) - Data-driven abstractions via adaptive refinements and a Kantorovich
metric [extended version] [56.94699829208978]
本稿では,動的システムのスマートでスケーラブルな抽象化のための適応的洗練手順を提案する。
最適構造を学ぶために、マルコフ連鎖の間のカントロビッチに着想を得た計量を定義する。
本稿では,従来の線形プログラミング手法よりも計算量が多くなることを示す。
論文 参考訳(メタデータ) (2023-03-30T11:26:40Z) - Model-Free Reinforcement Learning with the Decision-Estimation
Coefficient [79.30248422988409]
本稿では,汎用関数近似による構造化帯域と強化学習を包含する対話型意思決定の課題について考察する。
提案手法は,値関数近似を用いたモデル自由強化学習における残差を導出し,より一般的には有効かつ不可能な構造的結果を与える。
論文 参考訳(メタデータ) (2022-11-25T17:29:40Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - A Taxonomy of Similarity Metrics for Markov Decision Processes [62.997667081978825]
近年、伝達学習は強化学習(RL)アルゴリズムをより効率的にすることに成功した。
本稿では,これらの指標を分類し,これまでに提案されている類似性の定義を分析する。
論文 参考訳(メタデータ) (2021-03-08T12:36:42Z) - Approximating Euclidean by Imprecise Markov Decision Processes [3.0017241250121383]
我々は、ユークリッド過程が有限状態近似によって近似されるとき、どのような近似保証が得られるかを検討する。
有限時間地平線上のコスト関数について、近似が任意に正確になることを示す。
論文 参考訳(メタデータ) (2020-06-26T11:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。