論文の概要: Reward is not Necessary: How to Create a Compositional Self-Preserving
Agent for Life-Long Learning
- arxiv url: http://arxiv.org/abs/2211.10851v2
- Date: Wed, 23 Nov 2022 00:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:11:40.981069
- Title: Reward is not Necessary: How to Create a Compositional Self-Preserving
Agent for Life-Long Learning
- Title(参考訳): 報酬は必要ない:生涯学習のための構成的自己保存エージェントの作り方
- Authors: Thomas J. Ringstrom
- Abstract要約: 報酬信号や報酬最大化を目的としない生理モデルに基づくエージェントを導入する。
我々のエージェントは Operator Bellman Equations (OBEs) と呼ばれるベルマン方程式の新しいクラスを用いて定義される。
OBEは、ゴールを達成するために使われるポリシーの最終状態時刻に初期状態時刻をマッピングする最適なゴール条件遷移演算子を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a physiological model-based agent as proof-of-principle that it
is possible to define a flexible self-preserving system that does not use a
reward signal or reward-maximization as an objective. We achieve this by
introducing the Self-Preserving Agent (SPA) with a physiological structure
where the system can get trapped in an absorbing state if the agent does not
solve and execute goal-directed polices. Our agent is defined using new class
of Bellman equations called Operator Bellman Equations (OBEs), for encoding
jointly non-stationary non-Markovian tasks formalized as a Temporal Goal Markov
Decision Process (TGMDP). OBEs produce optimal goal-conditioned spatiotemporal
transition operators that map an initial state-time to the final state-times of
a policy used to complete a goal, and can also be used to forecast future
states in multiple dynamic physiological state-spaces. SPA is equipped with an
intrinsic motivation function called the valence function, which quantifies the
changes in empowerment (the channel capacity of a transition operator) after
following a policy. Because empowerment is a function of a transition operator,
there is a natural synergism between empowerment and OBEs: the OBEs create
hierarchical transition operators, and the valence function can evaluate
hierarchical empowerment change defined on these operators. The valence
function can then be used for goal selection, wherein the agent chooses a
policy sequence that realizes goal states which produce maximum empowerment
gain. In doing so, the agent will seek freedom and avoid internal death-states
that undermine its ability to control both external and internal states in the
future, thereby exhibiting the capacity of predictive and anticipatory
self-preservation. We also compare SPA to Multi-objective RL, and discuss its
capacity for symbolic reasoning and life-long learning.
- Abstract(参考訳): 本稿では, 報酬信号や報酬の最大化を目的としない, フレキシブルな自己保存システムを定義することが可能であることの証明として, 生理モデルに基づくエージェントを紹介した。
我々は,エージェントが解決しなければ,システムが吸収状態に閉じ込められ,目標指向の警察を実施できる生理学的構造を備えた自己保存エージェント(SPA)を導入することにより,これを実現した。
我々のエージェントは、テンポラルゴールマルコフ決定過程 (TGMDP) として形式化された非定常非マルコフタスクを符号化するために、演算子ベルマン方程式 (OBEs) と呼ばれるベルマン方程式の新しいクラスを用いて定義される。
OBEは、目標を達成するために使われるポリシーの最終状態時間に初期状態時刻をマッピングする最適な目標条件付き時空間遷移演算子を作成し、また、複数の動的生理的状態空間における将来の状態を予測するためにも使用できる。
spaは、ポリシーに従う後のエンパワーメント(トランジッション演算子のチャネル容量)の変化を定量化するvalence関数と呼ばれる本質的な動機付け関数を備えている。
エンパワーメントは遷移作用素の関数であるため、エンパワーメントとOBEの間には自然なシナジズムが存在する: OBEは階層的遷移作用素を作成し、価関数はこれらの作用素で定義される階層的エンパワーメント変化を評価することができる。
次に、valence関数はゴール選択に使用され、エージェントは最大エンパワーメントゲインを生成するゴール状態を実現するポリシーシーケンスを選択する。
そうすることで、エージェントは、将来、外部状態と内部状態の両方を制御する能力を損なう内部死状態を避け、予測的および予測的自己保存能力を発揮する。
また,SPAと多目的RLを比較し,シンボリック推論と生涯学習の能力について議論した。
関連論文リスト
- Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Hierarchical Empowerment: Towards Tractable Empowerment-Based Skill
Learning [65.41865750258775]
汎用エージェントは、大量のスキルのレパートリーを必要とする。
我々は、コンピューティングのエンパワーメントをより魅力的にする新しいフレームワーク、階層エンパワーメントを導入します。
一般的なアリナビゲーション領域では、我々の4つのレベルエージェントは、以前の作業よりも2桁大きい表面積をカバーするスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-07-06T02:27:05Z) - Creating Multi-Level Skill Hierarchies in Reinforcement Learning [0.0]
エージェントと環境との相互作用がどのように展開されるかのグラフィカルな表現に基づく回答を提案する。
提案手法では,多段階の抽象化で相互作用グラフの構造を明らかにするための中心的な組織原理として,モジュラリティ最大化を用いる。
論文 参考訳(メタデータ) (2023-06-16T17:23:49Z) - Generalized Reinforcement Learning: Experience Particles, Action
Operator, Reinforcement Field, Memory Association, and Decision Concepts [2.398608007786179]
本稿では,ベイズ風の一般強化学習フレームワークを提案する。
まず,不確実性や流動挙動に対処するためのパラメトリック・アクション・モデルを構築した。
次に,学習者の作業記憶に保持される「偏極化経験粒子」によって確立された物理に着想を得た構成体として,強化場の概念を導入する。
論文 参考訳(メタデータ) (2022-08-09T15:05:15Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - A First-Occupancy Representation for Reinforcement Learning [16.543719822033438]
現実の世界では、報酬は一度動いたり、消費のためにのみ利用できたり、場所を変えたり、エージェントは、人工的に課されたタスクの地平線を制約することなく、できるだけ早く目標状態に到達することを目指している。
本稿では、最初に状態がアクセスされたときの時間的割引を計測する、最初の占有率表現(FR)を紹介する。
我々は、FRが望ましい状態への効率的な経路の選択を促進し、ある条件下では、エージェントが確実に最適な軌道を計画し、動物に同様の行動を起こさせることを実証した。
論文 参考訳(メタデータ) (2021-09-28T16:48:16Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - Simple Agent, Complex Environment: Efficient Reinforcement Learning with
Agent State [35.69801203107371]
任意の環境で動作可能な簡易強化学習エージェントを設計する。
エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。
環境状態の数や、他の政策や歴史統計に関連付けられた混合時間に、これ以上依存することはない。
論文 参考訳(メタデータ) (2021-02-10T04:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。