論文の概要: A First-Occupancy Representation for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.13863v1
- Date: Tue, 28 Sep 2021 16:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:57:34.055037
- Title: A First-Occupancy Representation for Reinforcement Learning
- Title(参考訳): 強化学習のための初歩的な表現
- Authors: Ted Moskovitz, Spencer R. Wilson, Maneesh Sahani
- Abstract要約: 現実の世界では、報酬は一度動いたり、消費のためにのみ利用できたり、場所を変えたり、エージェントは、人工的に課されたタスクの地平線を制約することなく、できるだけ早く目標状態に到達することを目指している。
本稿では、最初に状態がアクセスされたときの時間的割引を計測する、最初の占有率表現(FR)を紹介する。
我々は、FRが望ましい状態への効率的な経路の選択を促進し、ある条件下では、エージェントが確実に最適な軌道を計画し、動物に同様の行動を起こさせることを実証した。
- 参考スコア(独自算出の注目度): 16.543719822033438
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Both animals and artificial agents benefit from state representations that
support rapid transfer of learning across tasks and which enable them to
efficiently traverse their environments to reach rewarding states. The
successor representation (SR), which measures the expected cumulative,
discounted state occupancy under a fixed policy, enables efficient transfer to
different reward structures in an otherwise constant Markovian environment and
has been hypothesized to underlie aspects of biological behavior and neural
activity. However, in the real world, rewards may move or only be available for
consumption once, may shift location, or agents may simply aim to reach goal
states as rapidly as possible without the constraint of artificially imposed
task horizons. In such cases, the most behaviorally-relevant representation
would carry information about when the agent was likely to first reach states
of interest, rather than how often it should expect to visit them over a
potentially infinite time span. To reflect such demands, we introduce the
first-occupancy representation (FR), which measures the expected temporal
discount to the first time a state is accessed. We demonstrate that the FR
facilitates the selection of efficient paths to desired states, allows the
agent, under certain conditions, to plan provably optimal trajectories defined
by a sequence of subgoals, and induces similar behavior to animals avoiding
threatening stimuli.
- Abstract(参考訳): 動物と人工エージェントはどちらも、タスク間の学習の迅速な伝達を支援する状態表現の恩恵を受けており、それによって効率よく環境を横断して報奨状態に到達することができる。
固定された政策の下で、期待される累積的、割引された状態占有度を測定する後継表現(SR)は、他の一定のマルコフ環境下で異なる報酬構造への効率的な移動を可能にし、生物学的行動や神経活動の側面を過小評価している。
しかし、現実の世界では、報酬は一度だけ移動したり、場所をシフトしたり、エージェントが人工的なタスクホライズンズの制約なしにできるだけ早く目標状態に到達することを意図したりできる。
そのような場合、最も行動にかかわる表現は、エージェントが最初に関心のある状態に到達するであろう時期に関する情報を、潜在的に無限の期間にわたって訪問すべき頻度ではなく、持ち込むことになる。
このような要求を反映するために、状態がアクセスされた最初の時間的ディスカウントを測定するファースト占有表現(fr)を導入する。
frは望ましい状態への効率的な経路の選択を容易にし、特定の条件下において、一連のサブゴールによって定義された最適な軌道を計画し、刺激の脅威を避ける動物に類似した行動を誘導できることを実証する。
関連論文リスト
- Learning telic-controllable state representations [3.072340427031969]
本稿では,有界エージェントにおける状態表現学習のための新しい計算フレームワークを提案する。
我々の研究は、自然エージェントと人工エージェントの目標指向状態表現学習に関する統一的な理論的視点を推し進めている。
論文 参考訳(メタデータ) (2024-06-20T16:38:25Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - PcLast: Discovering Plannable Continuous Latent States [24.78767380808056]
我々は、効率的な計画と目標条件付き政策学習のために、到達可能な状態を関連付ける表現を学習する。
提案手法は各種シミュレーションテストベッドで厳密に検証されている。
論文 参考訳(メタデータ) (2023-11-06T21:16:37Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - Reward is not Necessary: How to Create a Modular & Compositional
Self-Preserving Agent for Life-Long Learning [0.0]
本稿では、エージェントの能力を測定して、遷移演算子の下で実現可能な多くの未来を実現する、本質的なモチベーションの指標のみを使用することが可能であることを示す。
演算子ベルマン方程式を用いて階層状態空間へのエンパワーメントをスケールすることを提案する。
論文 参考訳(メタデータ) (2022-11-20T02:48:01Z) - A Neural Active Inference Model of Perceptual-Motor Learning [62.39667564455059]
アクティブ推論フレームワーク(英: active inference framework、AIF)は、現代の神経科学を基盤とした、有望な新しい計算フレームワークである。
本研究では,ヒトの視覚行動指導において,AIFが期待する役割を捉える能力をテストする。
本稿では,多次元世界状態から自由エネルギーの一次元分布にマッピングする先行関数の新たな定式化について述べる。
論文 参考訳(メタデータ) (2022-11-16T20:00:38Z) - Variational Inference for Model-Free and Model-Based Reinforcement
Learning [4.416484585765028]
変分推論 (VI) は、抽出可能な後方分布と抽出可能な後方分布を近似するベイズ近似の一種である。
一方、強化学習(Reinforcement Learning, RL)は、自律的なエージェントと、それらを最適な行動にする方法を扱う。
この写本は、VIとRLの明らかに異なる主題が2つの基本的な方法でどのようにリンクされているかを示している。
論文 参考訳(メタデータ) (2022-09-04T21:03:14Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Locally Persistent Exploration in Continuous Control Tasks with Sparse
Rewards [0.0]
2つの直観に基づく新しい探索法を提案する。
次の探索アクションの選択は、環境の(マルコフの)状態だけでなく、エージェントの軌道にも依存する必要があります。
本稿では,局所的自己回避歩行の理論的特性と,短期記憶の提供能力について論じる。
論文 参考訳(メタデータ) (2020-12-26T01:30:26Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z) - InfoBot: Transfer and Exploration via the Information Bottleneck [105.28380750802019]
強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
論文 参考訳(メタデータ) (2019-01-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。