論文の概要: InfoBot: Transfer and Exploration via the Information Bottleneck
- arxiv url: http://arxiv.org/abs/1901.10902v5
- Date: Tue, 5 Dec 2023 19:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 19:56:46.321867
- Title: InfoBot: Transfer and Exploration via the Information Bottleneck
- Title(参考訳): InfoBot: Information Bottleneckによる転送と探索
- Authors: Anirudh Goyal, Riashat Islam, Daniel Strouse, Zafarali Ahmed, Matthew
Botvinick, Hugo Larochelle, Yoshua Bengio, Sergey Levine
- Abstract要約: 強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
- 参考スコア(独自算出の注目度): 105.28380750802019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central challenge in reinforcement learning is discovering effective
policies for tasks where rewards are sparsely distributed. We postulate that in
the absence of useful reward signals, an effective exploration strategy should
seek out {\it decision states}. These states lie at critical junctions in the
state space from where the agent can transition to new, potentially unexplored
regions. We propose to learn about decision states from prior experience. By
training a goal-conditioned policy with an information bottleneck, we can
identify decision states by examining where the model actually leverages the
goal state. We find that this simple mechanism effectively identifies decision
states, even in partially observed settings. In effect, the model learns the
sensory cues that correlate with potential subgoals. In new environments, this
model can then identify novel subgoals for further exploration, guiding the
agent through a sequence of potential decision states and through new regions
of the state space.
- Abstract(参考訳): 強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
有用な報酬信号がなければ、効果的な探索戦略は「it決定状態」を求めるべきであると仮定する。
これらの状態は、エージェントが新しい、潜在的に探索されていない領域に遷移できる状態空間における臨界ジャンクションにある。
我々は事前の経験から意思決定状態について学ぶことを提案する。
目標条件付きポリシを情報ボトルネックでトレーニングすることにより、モデルが実際に目標状態を活用する場所を調べることで、決定状態を特定することができる。
この単純なメカニズムは、部分的に観察された設定であっても、決定状態を効果的に識別する。
効果的に、モデルは潜在する部分と相関する感覚的手がかりを学習する。
新しい環境では、このモデルはさらなる探索のために新しいサブゴールを特定し、潜在的な決定状態のシーケンスと状態空間の新しい領域を通してエージェントを導くことができる。
関連論文リスト
- Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - ELDEN: Exploration via Local Dependencies [37.44189774149647]
ELDEN, Exploration via Local DepENdencies, a novel intrinsic reward that encourage the discovery of new interaction between entity。
2次元グリッド世界から3次元ロボットタスクまで、複雑な依存関係を持つ4つの領域におけるEDDENの性能を評価する。
論文 参考訳(メタデータ) (2023-10-12T20:20:21Z) - Learning Continuous Control Policies for Information-Theoretic Active
Perception [24.297016904005257]
ランドマーク状態とセンサ観測の相互情報を最大化する制御ポリシーを学習する問題に取り組む。
我々はカルマンフィルタを用いてランドマーク状態の部分的に観測可能な問題をマルコフ決定過程(MDP)に変換する。
論文 参考訳(メタデータ) (2022-09-26T05:28:32Z) - Local Explanations for Reinforcement Learning [14.87922813917482]
自動学習されたメタ状態から重要な状態を特定することに基づくRLポリシーを理解するための新しい視点を提案する。
メタ状態を求めるアルゴリズムが収束し,各メタ状態から重要な状態を選択する目的がサブモジュラーであることを示し,高品質なグレディ選択を実現する。
論文 参考訳(メタデータ) (2022-02-08T02:02:09Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning Discrete State Abstractions With Deep Variational Inference [7.273663549650618]
状態抽象化の一種である近似バイシミュレーションを学習する手法を提案する。
我々はディープ・ニューラルエンコーダを使って状態を連続的な埋め込みにマッピングする。
我々はこれらの埋め込みを、アクション条件付き隠れマルコフモデルを用いて離散表現にマッピングする。
論文 参考訳(メタデータ) (2020-03-09T17:58:27Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。