論文の概要: Dynamic Bottleneck for Robust Self-Supervised Exploration
- arxiv url: http://arxiv.org/abs/2110.10735v1
- Date: Wed, 20 Oct 2021 19:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 14:34:56.910070
- Title: Dynamic Bottleneck for Robust Self-Supervised Exploration
- Title(参考訳): ロバスト自己監視探査のための動的ボトルネック
- Authors: Chenjia Bai, Lingxiao Wang, Lei Han, Animesh Garg, Jianye Hao, Peng
Liu, Zhaoran Wang
- Abstract要約: 本稿では,インフォメーション・ボトルネックの原理に基づく動的関連表現を実現する動的ボトルネック(DB)モデルを提案する。
さらに,DBモデルに基づくDB-bonusを提案する。
実験の結果,DBボーナスによる探索は,ノイズの多い環境での最先端の探査方法よりも優れていた。
- 参考スコア(独自算出の注目度): 84.78836146128236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration methods based on pseudo-count of transitions or curiosity of
dynamics have achieved promising results in solving reinforcement learning with
sparse rewards. However, such methods are usually sensitive to environmental
dynamics-irrelevant information, e.g., white-noise. To handle such
dynamics-irrelevant information, we propose a Dynamic Bottleneck (DB) model,
which attains a dynamics-relevant representation based on the
information-bottleneck principle. Based on the DB model, we further propose
DB-bonus, which encourages the agent to explore state-action pairs with high
information gain. We establish theoretical connections between the proposed
DB-bonus, the upper confidence bound (UCB) for linear case, and the visiting
count for tabular case. We evaluate the proposed method on Atari suits with
dynamics-irrelevant noises. Our experiments show that exploration with DB bonus
outperforms several state-of-the-art exploration methods in noisy environments.
- Abstract(参考訳): 遷移の擬似数や力学の好奇心に基づく探索手法は、わずかな報酬で強化学習を解決できる有望な結果を得た。
しかし、このような手法は通常、ホワイトノイズのような環境力学関連情報に敏感である。
このようなダイナミックス関連情報を扱うために,情報・ブートネック原理に基づいた動的ブルネック(DB)モデルを提案する。
dbモデルに基づいてさらに,情報利得の高い状態-アクションペアを探索することをエージェントに促すdb-bonusを提案する。
提案したDB結合と線形の場合の上位信頼境界(UCB)と表状の場合の訪問数との理論的関係を確立する。
Atariスーツの動的非関係雑音に対する提案手法の評価を行った。
実験の結果,DBボーナスによる探索は,ノイズの多い環境での最先端探査方法よりも優れていた。
関連論文リスト
- Active Learning of Dynamics Using Prior Domain Knowledge in the Sampling Process [18.406992961818368]
本稿では,事前知識をサンプリングプロセスに明示的に組み込むことで,側面情報を活用する動的学習のための能動的学習アルゴリズムを提案する。
提案アルゴリズムは,観測データと側情報から導出される力学の非完全先行モデルとの間に高い経験的差を示す領域への探索を導く。
我々は,我々の能動学習アルゴリズムが,最大予測分散に対する明確な収束率を提供することで,基礎となる力学の一貫性のある推定値が得られることを厳密に証明する。
論文 参考訳(メタデータ) (2024-03-25T22:20:45Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression
with Bayesian Hierarchical Modeling [4.132882666134921]
探査・探査を同時に検討する方法は、最適でないかもしれないトレードオフを制御するために、固定的またはアドホックな手段を同時に採用する。
我々は,BHEEMと呼ばれるベイズ的階層的アプローチを開発し,探査・探査のトレードオフを動的にバランスさせる。
論文 参考訳(メタデータ) (2023-04-16T01:40:48Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z) - Reinforcement Learning based Path Exploration for Sequential Explainable
Recommendation [57.67616822888859]
強化学習(TMER-RL)を活用した新しい時間的メタパスガイド型説明可能な勧告を提案する。
TMER-RLは, 動的知識グラフ上での動的ユーザ・イテム進化を逐次モデル化するために, 注意機構を持つ連続項目間の強化項目・イテムパスをモデル化する。
2つの実世界のデータセットに対するTMERの大規模な評価は、最近の強いベースラインと比較して最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-11-24T04:34:26Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Planning with Exploration: Addressing Dynamics Bottleneck in Model-based
Reinforcement Learning [25.077671501605746]
理論的解析により動的ボトルネックジレンマを引き起こす主な原因は軌道報酬推定誤差であることがわかった。
このことから,MOPE(Progressive Entropy-based Exploration)と呼ばれるモデルベース制御手法が提案されている。
論文 参考訳(メタデータ) (2020-10-24T15:29:02Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。