論文の概要: Provably adaptive reinforcement learning in metric spaces
- arxiv url: http://arxiv.org/abs/2006.10875v2
- Date: Wed, 20 Oct 2021 14:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:04:57.291183
- Title: Provably adaptive reinforcement learning in metric spaces
- Title(参考訳): 距離空間における適応強化学習
- Authors: Tongyi Cao, Akshay Krishnamurthy
- Abstract要約: 本研究では, 連続状態における強化学習と, 距離を付与した行動空間について検討する。
この結果が,距離空間における強化学習の適応的保証として初めて得られた。
- 参考スコア(独自算出の注目度): 45.104950321472955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning in continuous state and action spaces endowed
with a metric. We provide a refined analysis of a variant of the algorithm of
Sinclair, Banerjee, and Yu (2019) and show that its regret scales with the
\emph{zooming dimension} of the instance. This parameter, which originates in
the bandit literature, captures the size of the subsets of near optimal actions
and is always smaller than the covering dimension used in previous analyses. As
such, our results are the first provably adaptive guarantees for reinforcement
learning in metric spaces.
- Abstract(参考訳): 本研究では,連続状態における強化学習と,距離を付与した行動空間について検討する。
我々はシンクレア, バナジー, ユ (2019) のアルゴリズムの変種を精巧に解析し、その後悔はインスタンスの 'emph{zooming dimension} と共にスケールすることを示す。
このパラメータは、バンディットの文献に由来するもので、ほぼ最適な行動の部分集合のサイズを捉え、常に以前の分析で用いられる被覆次元よりも小さい。
その結果, 計量空間における強化学習に対する適応的保証は, 初めてのものとなった。
関連論文リスト
- Reinforcement Learning of Adaptive Acquisition Policies for Inverse Problems [20.107765127408097]
高次元信号を得るための高価なプロセスを軽減するための有望な方法は、限られた数の低次元測定を取得することである。
そこで本研究では,測定結果を逐次収集し,基礎となる信号をよりよく復元する強化学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T16:12:09Z) - Bayesian Metric Learning for Uncertainty Quantification in Image
Retrieval [0.7646713951724012]
距離学習のための最初のベイズエンコーダを提案する。
ネットワーク重みに関する分布をLaplace Approximationで学習する。
我々は,Laplacian Metric Learner (LAM) がよく校正された不確かさを推定し,分布外例を確実に検出し,最先端の予測性能を得ることを示す。
論文 参考訳(メタデータ) (2023-02-02T18:59:23Z) - Neural Bregman Divergences for Distance Learning [60.375385370556145]
本稿では,入力凸ニューラルネットワークを用いて任意のブレグマン分岐を微分可能な方法で学習するための新しいアプローチを提案する。
提案手法は,新しいタスクと以前に研究されたタスクのセットにおいて,より忠実に相違点を学習することを示す。
我々のテストはさらに、既知の非対称なタスクにまで拡張するが、Bregmanでないタスクでは、不特定性にもかかわらず、我々のメソッドは競争的に機能する。
論文 参考訳(メタデータ) (2022-06-09T20:53:15Z) - Learning Size and Shape of Calabi-Yau Spaces [0.0]
文字列圧縮空間のメトリクスを計算するための新しい機械学習ライブラリを提案する。
モンテカルロのサンプル積分の性能を従来の数値近似と比較した。
論文 参考訳(メタデータ) (2021-11-02T08:48:53Z) - Online learning with exponential weights in metric spaces [0.0]
本稿では,指数重みを用いた計量空間におけるオンライン学習の問題に対処する。
指数重み付き平均予測器の分析をより抽象的な枠組みに拡張する。
論文 参考訳(メタデータ) (2021-03-26T10:46:10Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Towards Certified Robustness of Distance Metric Learning [53.96113074344632]
我々は,距離学習アルゴリズムの一般化とロバスト性を改善するために,入力空間に逆のマージンを付与することを提唱する。
アルゴリズム的ロバスト性の理論手法を用いることにより,拡張マージンは一般化能力に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。