論文の概要: A Kernel Perspective on Behavioural Metrics for Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2310.19804v1
- Date: Thu, 5 Oct 2023 20:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:41:42.882293
- Title: A Kernel Perspective on Behavioural Metrics for Markov Decision
Processes
- Title(参考訳): マルコフ決定過程における行動指標に関するカーネル視点
- Authors: Pablo Samuel Castro, Tyler Kastner, Prakash Panangaden, Mark Rowland
- Abstract要約: 本稿では,マルコフ決定過程の行動指標について,正定値カーネルを用いて新たな視点を示す。
我々は最近導入されたMICo距離と確実に等価な新しい計量を定義する。
- 参考スコア(独自算出の注目度): 23.51190624144022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioural metrics have been shown to be an effective mechanism for
constructing representations in reinforcement learning. We present a novel
perspective on behavioural metrics for Markov decision processes via the use of
positive definite kernels. We leverage this new perspective to define a new
metric that is provably equivalent to the recently introduced MICo distance
(Castro et al., 2021). The kernel perspective further enables us to provide new
theoretical results, which has so far eluded prior work. These include bounding
value function differences by means of our metric, and the demonstration that
our metric can be provably embedded into a finite-dimensional Euclidean space
with low distortion error. These are two crucial properties when using
behavioural metrics for reinforcement learning representations. We complement
our theory with strong empirical results that demonstrate the effectiveness of
these methods in practice.
- Abstract(参考訳): 行動指標は強化学習における表現構築に有効なメカニズムであることが示されている。
本稿では,マルコフ決定過程における行動指標に関する新しい視点を,正定値カーネルを用いて提示する。
我々はこの新たな視点を利用して、最近導入されたMICo距離(Castro et al., 2021)と同値である新しい距離を定義する。
カーネル・パースペクティブによってさらに新しい理論的な結果を提供できるようになり、これまでの先行研究から遠ざかっている。
これらには、我々の計量による有界値関数の差や、我々の計量が低歪み誤差の有限次元ユークリッド空間に証明可能に組み込まれることの実証が含まれる。
これらは強化学習表現に行動指標を使用する際の2つの重要な特性である。
我々は,これらの手法の有効性を実証する強力な実験結果を用いて,理論を補完する。
関連論文リスト
- Understanding Probe Behaviors through Variational Bounds of Mutual
Information [53.520525292756005]
情報理論を利用した新しい数学的枠組みを構築することで線形探索のガイドラインを提供する。
まず、プローブ設計を緩和するために、相互情報の変動境界(MI)と探索を結合し、線形探索と微調整を同一視する。
中間表現は、分離性の向上とMIの減少のトレードオフのため、最大のMI推定値を持つことが示される。
論文 参考訳(メタデータ) (2023-12-15T18:38:18Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - An evaluation framework for dimensionality reduction through sectional
curvature [59.40521061783166]
本研究は,非教師付き次元減少性能指標を初めて導入することを目的としている。
その実現可能性をテストするために、この測定基準は最もよく使われる次元削減アルゴリズムの性能を評価するために用いられている。
新しいパラメータ化問題インスタンスジェネレータが関数ジェネレータの形式で構築されている。
論文 参考訳(メタデータ) (2023-03-17T11:59:33Z) - Learning Generalized Hybrid Proximity Representation for Image
Recognition [8.750658662419328]
画像認識のための幾何空間と確率空間の両方で距離メトリクスを学習できる新しい教師付き距離学習法を提案する。
ユークリッド空間における距離指標の学習に重点を置く従来の計量学習法とは対照的に,提案手法はハイブリッド手法でより優れた距離表現を学習することができる。
論文 参考訳(メタデータ) (2023-01-31T07:49:25Z) - Never mind the metrics -- what about the uncertainty? Visualising
confusion matrix metric distributions [6.566615606042994]
本稿では,不確実性の異なるモデル下での分布を明らかにすることにより,分類器の性能指標について,よりバランスのとれた視点を求める。
我々は、このROC空間内の(そしてそれ以上の)パフォーマンスメトリクスの輪郭の方程式、アニメーション、インタラクティブな可視化を開発します。
私たちの期待は、これらの洞察と視覚化によって、パフォーマンス指標の推定における実質的な不確実性に対する認識がより高くなることです。
論文 参考訳(メタデータ) (2022-06-05T11:54:59Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文 参考訳(メタデータ) (2021-02-02T14:30:41Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Towards Certified Robustness of Distance Metric Learning [53.96113074344632]
我々は,距離学習アルゴリズムの一般化とロバスト性を改善するために,入力空間に逆のマージンを付与することを提唱する。
アルゴリズム的ロバスト性の理論手法を用いることにより,拡張マージンは一般化能力に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。