論文の概要: Extending Environments To Measure Self-Reflection In Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2110.06890v1
- Date: Wed, 13 Oct 2021 17:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 13:38:47.914527
- Title: Extending Environments To Measure Self-Reflection In Reinforcement
Learning
- Title(参考訳): 強化学習における自己反射計測環境の拡張
- Authors: Samuel Allen Alexander, Michael Castaneda, Kevin Compher, Oscar
Martinez
- Abstract要約: 概念実証として機能する拡張環境のオープンソースライブラリをリリースする。
実験によって自己回帰が増大すると思われる単純な変換を例に紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider an extended notion of reinforcement learning in which the
environment can simulate the agent and base its outputs on the agent's
hypothetical behavior. Since good performance usually requires paying attention
to whatever things the environment's outputs are based on, we argue that for an
agent to achieve on-average good performance across many such extended
environments, it is necessary for the agent to self-reflect. Thus, an agent's
self-reflection ability can be numerically estimated by running the agent
through a battery of extended environments. We are simultaneously releasing an
open-source library of extended environments to serve as proof-of-concept of
this technique. As the library is first-of-kind, we have avoided the difficult
problem of optimizing it. Instead we have chosen environments with interesting
properties. Some seem paradoxical, some lead to interesting thought
experiments, some are even suggestive of how self-reflection might have evolved
in nature. We give examples and introduce a simple transformation which
experimentally seems to increase self-reflection.
- Abstract(参考訳): 本研究では,環境がエージェントをシミュレートし,エージェントの仮説的行動に基づく出力をベースとする強化学習の概念について考察する。
優れたパフォーマンスには、通常、環境のアウトプットがどんなものでも注意を払う必要があるため、エージェントがこのような拡張環境において平均的な優れたパフォーマンスを達成するためには、エージェントが自己参照する必要があると論じる。
これにより、拡張環境の電池を介してエージェントを実行することにより、エージェントの自己反射能力を数値的に推定することができる。
このテクニックの実証となる拡張環境のオープンソースライブラリを同時にリリースしています。
ライブラリは第一種であるため、最適化の難しい問題を回避しています。
代わりに、興味深い特性を持つ環境を選択しました。
パラドックス的に見えるものもあれば、興味深い思考実験に繋がるものもあるし、自然の中で自己回帰がどのように進化したのかを示唆するものもある。
実例を示し,自己回帰を実験的に高める単純な変換を導入する。
関連論文リスト
- OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - The Exploration-Exploitation Dilemma Revisited: An Entropy Perspective [18.389232051345825]
政策最適化において、探索への過度な依存は学習効率を低下させる一方、搾取への過度な依存は、局地的最適化においてエージェントを罠にする可能性がある。
本稿では,エントロピーの観点から,探査・探査ジレンマを再考する。
我々は、AdaZeroと呼ばれるエンドツーエンド適応フレームワークを構築し、探索するか、活用するかを自動的に決定する。
論文 参考訳(メタデータ) (2024-08-19T13:21:46Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - OPEn: An Open-ended Physics Environment for Learning Without a Task [132.6062618135179]
オープンエンドな物理環境で学んだ世界のモデルが、特定のタスクを伴わずに、下流の物理推論タスクに再利用できるかどうかについて検討する。
我々は,OPEn(Open-ended Physics ENvironment)のベンチマークを構築し,この環境における学習表現をテストするためのいくつかのタスクを明示的に設計する。
その結果、教師なしのコントラスト学習を表現学習に用いたエージェントと、探索のためのインパクト駆動学習が最良の結果となった。
論文 参考訳(メタデータ) (2021-10-13T17:48:23Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - A Geometric Perspective on Self-Supervised Policy Adaptation [19.0999190751611]
本稿では,現実世界の具体的特徴に類似した長期適応構成を提案する。
この適応プロセス中に埋め込み空間で発生する過程を実証的に記述する。
アクターベースおよびアクターフリーエージェントがターゲット環境にさらに一般化できることを示す。
論文 参考訳(メタデータ) (2020-11-14T15:16:43Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。