論文の概要: Agent Spaces
- arxiv url: http://arxiv.org/abs/2111.06005v1
- Date: Thu, 11 Nov 2021 01:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 13:46:08.507138
- Title: Agent Spaces
- Title(参考訳): エージェントスペース
- Authors: John C. Raisbeck, Matthew W. Allen, Hakho Lee
- Abstract要約: 我々は探索を、エージェント自体を爆発的に修正する行為として定義する。
強化学習における多くの重要な構造は、エージェント空間の収束によって引き起こされるトポロジーの下でうまく振る舞うことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is one of the most important tasks in Reinforcement Learning, but
it is not well-defined beyond finite problems in the Dynamic Programming
paradigm (see Subsection 2.4). We provide a reinterpretation of exploration
which can be applied to any online learning method. We come to this definition
by approaching exploration from a new direction. After finding that concepts of
exploration created to solve simple Markov decision processes with Dynamic
Programming are no longer broadly applicable, we reexamine exploration. Instead
of extending the ends of dynamic exploration procedures, we extend their means.
That is, rather than repeatedly sampling every state-action pair possible in a
process, we define the act of modifying an agent to itself be explorative. The
resulting definition of exploration can be applied in infinite problems and
non-dynamic learning methods, which the dynamic notion of exploration cannot
tolerate. To understand the way that modifications of an agent affect learning,
we describe a novel structure on the set of agents: a collection of distances
(see footnote 7) $d_{a} \in A$, which represent the perspectives of each agent
possible in the process. Using these distances, we define a topology and show
that many important structures in Reinforcement Learning are well behaved under
the topology induced by convergence in the agent space.
- Abstract(参考訳): 強化学習における探索は最も重要なタスクの1つだが、動的プログラミングパラダイムにおける有限問題以外には明確に定義されていない(第2.4条参照)。
オンライン学習手法にも適用可能な探索の再解釈を提案する。
新しい方向からの探索に近付くことで、この定義にたどり着きます。
動的プログラミングによる単純なマルコフ決定プロセスを解決するために作られた探索の概念は、もはや広く適用されないことを発見した後、調査を再検討する。
ダイナミックな探索手順の終了を延ばす代わりに、その手段を拡張します。
すなわち、プロセスで可能なすべての状態-アクションペアを繰り返しサンプリングするのではなく、エージェント自体を爆発的に修正する行為を定義します。
その結果得られる探索の定義は無限問題や非動的学習法にも適用でき、探索のダイナミックな概念は許容できない。
エージェントの修正が学習にどのように影響するかを理解するため、エージェントの集合の新たな構造について説明する: プロセスで可能な各エージェントの視点を表す距離の集合(フットノート7参照) $d_{a} \in a$。
これらの距離を用いてトポロジーを定義し、強化学習における多くの重要な構造がエージェント空間の収束によって引き起こされるトポロジーの下でうまく振る舞うことを示す。
関連論文リスト
- A Definition of Continual Reinforcement Learning [69.56273766737527]
強化学習問題の標準的な見方では、エージェントの目標は、長期的な報酬を最大化するポリシーを効率的に識別することである。
継続的強化学習とは、最高のエージェントが決して学習をやめない状態を指す。
エージェントの分析とカタログ化のための新しい数学的言語を通じて「学習をやめることはない」エージェントの概念を定式化する。
論文 参考訳(メタデータ) (2023-07-20T17:28:01Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Interesting Object, Curious Agent: Learning Task-Agnostic Exploration [44.18450799034677]
本稿では,タスク非依存探索の定式化と評価におけるパラダイム変化を提案する。
我々の定式化は効果的であることを示し、複数のトレーニングテスト環境ペアをまたいだ最も一貫した探索を提供する。
論文 参考訳(メタデータ) (2021-11-25T15:17:32Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Objective discovery of dominant dynamical processes with intelligible
machine learning [0.0]
本稿では,動的状態の同定を最適化問題として定式化する形式的定義を提案する。
本稿では,事前知識やアドホックな定義の必要性を排除した教師なし学習フレームワークを提案する。
我々の手法は、動的システム内でセレンディピティーな発見を可能にする、偏りのないデータ探索への一歩である。
論文 参考訳(メタデータ) (2021-06-21T20:57:23Z) - A Novel Approach to Curiosity and Explainable Reinforcement Learning via
Interpretable Sub-Goals [0.0]
強化学習における2つの重要な課題は、(a)環境内でのエージェント学習の改善、および(b)エージェントアクションの説明可能性である。
これらの課題に対処するために、興味深いサブゴールに焦点を当てたエージェントについて説明する。
環境遷移にロバストな環境遷移のモデルとして,gan(generative adrial network)を用いた新たな好奇心評価手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T05:21:13Z) - Progressive growing of self-organized hierarchical representations for
exploration [22.950651316748207]
中心的な課題は、発見された構造の地図を段階的に構築するために、どのように表現を学ぶかである。
永続的な表現を構築し、探索プロセスを通して破滅的な忘れ物を避けることを目的としている。
第三に、エージェントの発見を粗い方法で構造化できる表現をターゲットとする。
論文 参考訳(メタデータ) (2020-05-13T15:24:42Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。