論文の概要: STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.12038v1
- Date: Sat, 28 Jan 2023 00:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:32:09.511136
- Title: STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning
- Title(参考訳): STEERING: モデルに基づく強化学習のためのスタイン情報指向探索
- Authors: Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Mengdi Wang,
Furong Huang, Dinesh Manocha
- Abstract要約: 情報指向サンプリングは、情報ゲインで後悔を増すことによって、それを行おうとする。
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
提案アルゴリズムは計算に手頃な価格であり,いくつかの先行手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 86.90934467346902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Directed Exploration is a crucial challenge in reinforcement learning (RL),
especially when rewards are sparse. Information-directed sampling (IDS), which
optimizes the information ratio, seeks to do so by augmenting regret with
information gain. However, estimating information gain is computationally
intractable or relies on restrictive assumptions which prohibit its use in many
practical instances. In this work, we posit an alternative exploration
incentive in terms of the integral probability metric (IPM) between a current
estimate of the transition model and the unknown optimal, which under suitable
conditions, can be computed in closed form with the kernelized Stein
discrepancy (KSD). Based on KSD, we develop a novel algorithm STEERING:
\textbf{STE}in information dir\textbf{E}cted exploration for model-based
\textbf{R}einforcement Learn\textbf{ING}. To enable its derivation, we develop
fundamentally new variants of KSD for discrete conditional distributions. We
further establish that STEERING archives sublinear Bayesian regret, improving
upon prior learning rates of information-augmented MBRL, IDS included.
Experimentally, we show that the proposed algorithm is computationally
affordable and outperforms several prior approaches.
- Abstract(参考訳): ディレクテッド・エクスプロレーション(Directed Exploration)は、特に報酬が不足している場合、強化学習(RL)において重要な課題である。
情報比を最適化する情報指向サンプリング(IDS)は,情報獲得による後悔の増大を図り,その実現を目指している。
しかし、情報ゲインの推定は計算的に難解であり、多くの実例での使用を禁止する制限的な仮定に依存している。
本研究では、遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点で別の探索インセンティブを仮定し、適切な条件下では、カーネル化されたスタイン差分(KSD)で閉じた形で計算することができる。
KSD に基づく新しいアルゴリズム STEERING を開発した。 モデルベース \textbf{R}einforcement Learn\textbf{ING} のための情報 dir\textbf{E}cted Explored。
その導出を可能にするために, 離散条件分布に対する ksd の基本的な新しい変種を開発した。
さらに,STEERINGは,情報付加型MBRL(IDS)の事前学習率を改善するとともに,ベイジアン後悔をサブリニア化する。
実験により,提案アルゴリズムは計算に手頃な価格であり,いくつかの先行手法より優れていることを示す。
関連論文リスト
- Informed Spectral Normalized Gaussian Processes for Trajectory Prediction [0.0]
本稿では,SNGPの正規化に基づく連続学習手法を提案する。
提案手法は確立された手法に基づいており,リハーサルメモリやパラメータ拡張を必要としない。
本研究では, 自律運転における軌道予測問題に対する情報SNGPモデルの適用について検討した。
論文 参考訳(メタデータ) (2024-03-18T17:05:24Z) - REMEDI: Corrective Transformations for Improved Neural Entropy Estimation [0.7488108981865708]
我々は微分エントロピーの効率的かつ正確な推定のために$textttREMEDI$を紹介した。
提案手法は,幅広い推定課題にまたがる改善を実証する。
自然に情報理論による教師あり学習モデルに拡張することができる。
論文 参考訳(メタデータ) (2024-02-08T14:47:37Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - On the Generalization for Transfer Learning: An Information-Theoretic Analysis [8.102199960821165]
一般化誤差と転帰学習アルゴリズムの過大なリスクを情報理論で解析する。
我々の結果は、おそらく予想通り、Kulback-Leibler divergenceD(mu|mu')$がキャラクタリゼーションにおいて重要な役割を果たすことを示唆している。
次に、$phi$-divergence や Wasserstein 距離といった他の発散点と結びついた相互情報を一般化する。
論文 参考訳(メタデータ) (2022-07-12T08:20:41Z) - Regret Bounds for Information-Directed Reinforcement Learning [40.783225558237746]
情報指向サンプリング(IDS)は、強化学習(RL)のためのデータ効率アルゴリズムとしての可能性を明らかにした。
本研究では,学習目標に関する情報比率と累積情報ゲインを結合する新しい情報理論ツールを開発する。
論文 参考訳(メタデータ) (2022-06-09T17:36:17Z) - Incorporating Causal Graphical Prior Knowledge into Predictive Modeling
via Simple Data Augmentation [92.96204497841032]
因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。
本研究では,条件付き独立性(CI)関係の事前知識を活用可能なモデルに依存しないデータ拡張手法を提案する。
本手法は,小データシステムにおける予測精度の向上に有効であることを実験的に示した。
論文 参考訳(メタデータ) (2021-02-27T06:13:59Z) - Scalable Approximate Inference and Some Applications [2.6541211006790983]
本稿では,近似推論のための新しいフレームワークを提案する。
提案する4つのアルゴリズムは,Steinの手法の最近の計算進歩に動機付けられている。
シミュレーションおよび実データを用いた結果から,アルゴリズムの統計的効率と適用性を示す。
論文 参考訳(メタデータ) (2020-03-07T04:33:27Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。