論文の概要: GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.11327v1
- Date: Mon, 22 Feb 2021 19:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 14:09:27.838339
- Title: GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning
- Title(参考訳): GELATO:オフライン強化学習のためのジオメトリックエンリッチレイテンシモデル
- Authors: Guy Tennenholtz, Nir Baram, Shie Mannor
- Abstract要約: オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
- 参考スコア(独自算出の注目度): 54.291331971813364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning approaches can generally be divided to
proximal and uncertainty-aware methods. In this work, we demonstrate the
benefit of combining the two in a latent variational model. We impose a latent
representation of states and actions and leverage its intrinsic Riemannian
geometry to measure distance of latent samples to the data. Our proposed
metrics measure both the quality of out of distribution samples as well as the
discrepancy of examples in the data. We integrate our metrics in a model-based
offline optimization framework, in which proximity and uncertainty can be
carefully controlled. We illustrate the geodesics on a simple grid-like
environment, depicting its natural inherent topology. Finally, we analyze our
approach and improve upon contemporary offline RL benchmarks.
- Abstract(参考訳): オフライン強化学習アプローチは一般に近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
我々は、状態と作用の潜在表現を課し、その固有リーマン幾何学を利用して潜在サンプルとデータの距離を測定する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
メトリクスをモデルベースのオフライン最適化フレームワークに統合し、近接性と不確実性を慎重に制御します。
単純な格子状の環境における測地学を、その自然固有のトポロジーを描写する。
最後に,我々のアプローチを分析し,現在のオフラインrlベンチマークを改善した。
関連論文リスト
- A Likelihood Based Approach to Distribution Regression Using Conditional Deep Generative Models [6.647819824559201]
本研究では,条件付き深部生成モデルの推定のための可能性に基づくアプローチの大規模サンプル特性について検討する。
その結果,条件分布を推定するための最大極大推定器の収束率を導いた。
論文 参考訳(メタデータ) (2024-10-02T20:46:21Z) - (Deep) Generative Geodesics [57.635187092922976]
2つのデータポイント間の類似性を評価するために,新しい測定基準を導入する。
我々の計量は、生成距離と生成測地学の概念的定義に繋がる。
彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。
論文 参考訳(メタデータ) (2024-07-15T21:14:02Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - A Model for Multi-View Residual Covariances based on Perspective
Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。
我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文 参考訳(メタデータ) (2022-02-01T21:21:56Z) - Latent Space Model for Higher-order Networks and Generalized Tensor
Decomposition [18.07071669486882]
我々は、複雑な高次ネットワーク相互作用を研究するために、一般的な潜在空間モデルとして定式化された統一フレームワークを導入する。
一般化された多線形カーネルをリンク関数として、潜伏位置と観測データとの関係を定式化する。
本手法が合成データに与える影響を実証する。
論文 参考訳(メタデータ) (2021-06-30T13:11:17Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Identifying the latent space geometry of network models through analysis
of curvature [7.644165047073435]
本稿では,可換空間の経験的に関連するクラスから多様体の種類,次元,曲率を一貫して推定する手法を提案する。
私たちのコアインサイトは、このグラフを、シリック間の結びつきに基づく騒々しい距離行列として表現することで実現します。
論文 参考訳(メタデータ) (2020-12-19T00:35:29Z) - Learning Flat Latent Manifolds with VAEs [16.725880610265378]
本稿では、ユークリッド計量がデータポイント間の類似性のプロキシとなる変分自動エンコーダのフレームワークの拡張を提案する。
我々は、変分オートエンコーダで一般的に使用されるコンパクトな以前のものを、最近発表されたより表現力のある階層型に置き換える。
提案手法は,ビデオ追跡ベンチマークを含む,さまざまなデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-02-12T09:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。