論文の概要: A First-Occupancy Representation for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.13863v1
- Date: Tue, 28 Sep 2021 16:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:57:34.055037
- Title: A First-Occupancy Representation for Reinforcement Learning
- Title(参考訳): 強化学習のための初歩的な表現
- Authors: Ted Moskovitz, Spencer R. Wilson, Maneesh Sahani
- Abstract要約: 現実の世界では、報酬は一度動いたり、消費のためにのみ利用できたり、場所を変えたり、エージェントは、人工的に課されたタスクの地平線を制約することなく、できるだけ早く目標状態に到達することを目指している。
本稿では、最初に状態がアクセスされたときの時間的割引を計測する、最初の占有率表現(FR)を紹介する。
我々は、FRが望ましい状態への効率的な経路の選択を促進し、ある条件下では、エージェントが確実に最適な軌道を計画し、動物に同様の行動を起こさせることを実証した。
- 参考スコア(独自算出の注目度): 16.543719822033438
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Both animals and artificial agents benefit from state representations that
support rapid transfer of learning across tasks and which enable them to
efficiently traverse their environments to reach rewarding states. The
successor representation (SR), which measures the expected cumulative,
discounted state occupancy under a fixed policy, enables efficient transfer to
different reward structures in an otherwise constant Markovian environment and
has been hypothesized to underlie aspects of biological behavior and neural
activity. However, in the real world, rewards may move or only be available for
consumption once, may shift location, or agents may simply aim to reach goal
states as rapidly as possible without the constraint of artificially imposed
task horizons. In such cases, the most behaviorally-relevant representation
would carry information about when the agent was likely to first reach states
of interest, rather than how often it should expect to visit them over a
potentially infinite time span. To reflect such demands, we introduce the
first-occupancy representation (FR), which measures the expected temporal
discount to the first time a state is accessed. We demonstrate that the FR
facilitates the selection of efficient paths to desired states, allows the
agent, under certain conditions, to plan provably optimal trajectories defined
by a sequence of subgoals, and induces similar behavior to animals avoiding
threatening stimuli.
- Abstract(参考訳): 動物と人工エージェントはどちらも、タスク間の学習の迅速な伝達を支援する状態表現の恩恵を受けており、それによって効率よく環境を横断して報奨状態に到達することができる。
固定された政策の下で、期待される累積的、割引された状態占有度を測定する後継表現(SR)は、他の一定のマルコフ環境下で異なる報酬構造への効率的な移動を可能にし、生物学的行動や神経活動の側面を過小評価している。
しかし、現実の世界では、報酬は一度だけ移動したり、場所をシフトしたり、エージェントが人工的なタスクホライズンズの制約なしにできるだけ早く目標状態に到達することを意図したりできる。
そのような場合、最も行動にかかわる表現は、エージェントが最初に関心のある状態に到達するであろう時期に関する情報を、潜在的に無限の期間にわたって訪問すべき頻度ではなく、持ち込むことになる。
このような要求を反映するために、状態がアクセスされた最初の時間的ディスカウントを測定するファースト占有表現(fr)を導入する。
frは望ましい状態への効率的な経路の選択を容易にし、特定の条件下において、一連のサブゴールによって定義された最適な軌道を計画し、刺激の脅威を避ける動物に類似した行動を誘導できることを実証する。
関連論文リスト
- PcLast: Discovering Plannable Continuous Latent States [25.342650372700348]
目標条件付プランニングは、学習されたリッチな高次元観測の低次元表現から恩恵を受ける。
小型の潜在表現は、変分オートエンコーダや逆ダイナミクスから学習されることが多いが、目標条件の計画では国家の余裕を無視することができる。
本稿では,有効な事前計画のために,到達可能な状態を関連付ける表現を学習する。
論文 参考訳(メタデータ) (2023-11-06T21:16:37Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - Tiered Reward Functions: Specifying and Fast Learning of Desired
Behavior [14.648659063777142]
我々は、望ましい状態に到達し、望ましくない状態を避けるために定式化されたタスクにおける報酬-設計問題を考える。
環境に依存しない報酬関数のクラスであるTiered Rewardを紹介する。
我々は、Tiered Rewardが、いくつかの環境で評価することで、高速な学習につながることを実証した。
論文 参考訳(メタデータ) (2022-12-07T15:55:00Z) - Reward is not Necessary: How to Create a Modular & Compositional
Self-Preserving Agent for Life-Long Learning [0.0]
本稿では、エージェントの能力を測定して、遷移演算子の下で実現可能な多くの未来を実現する、本質的なモチベーションの指標のみを使用することが可能であることを示す。
演算子ベルマン方程式を用いて階層状態空間へのエンパワーメントをスケールすることを提案する。
論文 参考訳(メタデータ) (2022-11-20T02:48:01Z) - A Neural Active Inference Model of Perceptual-Motor Learning [62.39667564455059]
アクティブ推論フレームワーク(英: active inference framework、AIF)は、現代の神経科学を基盤とした、有望な新しい計算フレームワークである。
本研究では,ヒトの視覚行動指導において,AIFが期待する役割を捉える能力をテストする。
本稿では,多次元世界状態から自由エネルギーの一次元分布にマッピングする先行関数の新たな定式化について述べる。
論文 参考訳(メタデータ) (2022-11-16T20:00:38Z) - Variational Inference for Model-Free and Model-Based Reinforcement
Learning [4.416484585765028]
変分推論 (VI) は、抽出可能な後方分布と抽出可能な後方分布を近似するベイズ近似の一種である。
一方、強化学習(Reinforcement Learning, RL)は、自律的なエージェントと、それらを最適な行動にする方法を扱う。
この写本は、VIとRLの明らかに異なる主題が2つの基本的な方法でどのようにリンクされているかを示している。
論文 参考訳(メタデータ) (2022-09-04T21:03:14Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Locally Persistent Exploration in Continuous Control Tasks with Sparse
Rewards [0.0]
2つの直観に基づく新しい探索法を提案する。
次の探索アクションの選択は、環境の(マルコフの)状態だけでなく、エージェントの軌道にも依存する必要があります。
本稿では,局所的自己回避歩行の理論的特性と,短期記憶の提供能力について論じる。
論文 参考訳(メタデータ) (2020-12-26T01:30:26Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z) - InfoBot: Transfer and Exploration via the Information Bottleneck [105.28380750802019]
強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
論文 参考訳(メタデータ) (2019-01-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。