論文の概要: Reward is not Necessary: How to Create a Compositional Self-Preserving
Agent for Life-Long Learning
- arxiv url: http://arxiv.org/abs/2211.10851v3
- Date: Tue, 12 Sep 2023 11:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:41:57.911218
- Title: Reward is not Necessary: How to Create a Compositional Self-Preserving
Agent for Life-Long Learning
- Title(参考訳): 報酬は必要ない:生涯学習のための構成的自己保存エージェントの作り方
- Authors: Thomas J. Ringstrom
- Abstract要約: 本稿では、エージェントの能力を測定して、遷移演算子の下で実現可能な多くの未来を実現する、本質的なモチベーションの指標のみを使用することが可能であることを示す。
演算子ベルマン方程式を用いて階層状態空間へのエンパワーメントをスケールすることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning views the maximization of rewards and avoidance of
punishments as central to explaining goal-directed behavior. However, over a
life, organisms will need to learn about many different aspects of the world's
structure: the states of the world and state-vector transition dynamics. The
number of combinations of states grows exponentially as an agent incorporates
new knowledge, and there is no obvious weighted combination of pre-existing
rewards or costs defined for a given combination of states, as such a weighting
would need to encode information about good and bad combinations prior to an
agent's experience in the world. Therefore, we must develop more naturalistic
accounts of behavior and motivation in large state-spaces. We show that it is
possible to use only the intrinsic motivation metric of empowerment, which
measures the agent's capacity to realize many possible futures under a
transition operator. We propose to scale empowerment to hierarchical
state-spaces by using Operator Bellman Equations. These equations produce
state-time feasibility functions, which are compositional hierarchical
state-time transition operators that map an initial state and time when an
agent begins a policy to the final states and times of completing a goal.
Because these functions are hierarchical operators we can define hierarchical
empowerment measures on them. An agent can then optimize plans to distant
states and times to maximize its hierarchical empowerment-gain, allowing it to
discover goals that bring about a more favorable coupling of its internal
structure (physiological states) to its external environment (world structure &
spatial state). Life-long agents could therefore be primarily animated by
principles of compositionality and empowerment, exhibiting self-concern for the
growth & maintenance of their own structural integrity without recourse to
reward-maximization.
- Abstract(参考訳): 強化学習は、報酬の最大化と罰の回避が、目標指向の行動を説明する中心であると考えている。
しかし、生命体は、世界の状態と状態-ベクトル遷移ダイナミクスという、世界の構造に関する様々な側面を学ぶ必要がある。
エージェントが新しい知識を取り入れるにつれて、状態の組み合わせの数は指数関数的に増大し、与えられた状態の組み合わせに対して定義された既存の報酬やコストの明らかな重み付けは存在せず、そのような重み付けは、エージェントの経験よりも前に善と悪の組み合わせに関する情報をエンコードする必要がある。
したがって、我々は大きな状態空間における行動とモチベーションのより自然主義的な説明を開発する必要がある。
エンパワーメントの本質的動機付け指標のみを使うことは可能であり、これはトランジッション演算子の下で多くの可能な未来を実現するエージェントの能力を測定する。
演算子ベルマン方程式を用いて階層状態空間へのエンパワーメントのスケールを提案する。
これらの方程式は、初期状態とエージェントが最終状態と目標を達成する時間にポリシーを開始する時刻をマッピングする構成的階層的状態時間遷移作用素である。
これらの関数は階層演算子であるため、階層的なエンパワーメント測度を定義することができる。
エージェントは、その階層的なエンパワーメントゲインを最大化するために、遠くの州や時間へのプランを最適化し、その内部構造(生理状態)と外部環境(世界構造と空間状態)とのより好ましい結合をもたらす目標を発見できる。
したがって、生涯のエージェントは、主に構成性とエンパワーメントの原則によってアニメーションされ、報酬の最大化を繰り返すことなく、自身の構造的完全性の成長と維持を自認できる。
関連論文リスト
- Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Hierarchical Empowerment: Towards Tractable Empowerment-Based Skill
Learning [65.41865750258775]
汎用エージェントは、大量のスキルのレパートリーを必要とする。
我々は、コンピューティングのエンパワーメントをより魅力的にする新しいフレームワーク、階層エンパワーメントを導入します。
一般的なアリナビゲーション領域では、我々の4つのレベルエージェントは、以前の作業よりも2桁大きい表面積をカバーするスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-07-06T02:27:05Z) - Creating Multi-Level Skill Hierarchies in Reinforcement Learning [0.0]
エージェントと環境との相互作用がどのように展開されるかのグラフィカルな表現に基づく回答を提案する。
提案手法では,多段階の抽象化で相互作用グラフの構造を明らかにするための中心的な組織原理として,モジュラリティ最大化を用いる。
論文 参考訳(メタデータ) (2023-06-16T17:23:49Z) - Generalized Reinforcement Learning: Experience Particles, Action
Operator, Reinforcement Field, Memory Association, and Decision Concepts [2.398608007786179]
本稿では,ベイズ風の一般強化学習フレームワークを提案する。
まず,不確実性や流動挙動に対処するためのパラメトリック・アクション・モデルを構築した。
次に,学習者の作業記憶に保持される「偏極化経験粒子」によって確立された物理に着想を得た構成体として,強化場の概念を導入する。
論文 参考訳(メタデータ) (2022-08-09T15:05:15Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - A First-Occupancy Representation for Reinforcement Learning [16.543719822033438]
現実の世界では、報酬は一度動いたり、消費のためにのみ利用できたり、場所を変えたり、エージェントは、人工的に課されたタスクの地平線を制約することなく、できるだけ早く目標状態に到達することを目指している。
本稿では、最初に状態がアクセスされたときの時間的割引を計測する、最初の占有率表現(FR)を紹介する。
我々は、FRが望ましい状態への効率的な経路の選択を促進し、ある条件下では、エージェントが確実に最適な軌道を計画し、動物に同様の行動を起こさせることを実証した。
論文 参考訳(メタデータ) (2021-09-28T16:48:16Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - Simple Agent, Complex Environment: Efficient Reinforcement Learning with
Agent State [35.69801203107371]
任意の環境で動作可能な簡易強化学習エージェントを設計する。
エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。
環境状態の数や、他の政策や歴史統計に関連付けられた混合時間に、これ以上依存することはない。
論文 参考訳(メタデータ) (2021-02-10T04:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。