論文の概要: What can I do here? A Theory of Affordances in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.15085v1
- Date: Fri, 26 Jun 2020 16:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:47:55.271120
- Title: What can I do here? A Theory of Affordances in Reinforcement Learning
- Title(参考訳): ここで何ができますか。
強化学習における余裕の理論
- Authors: Khimya Khetarpal, Zafarali Ahmed, Gheorghe Comanici, David Abel, Doina
Precup
- Abstract要約: 我々はマルコフ決定過程の学習と計画を行うエージェントのための余裕の理論を開発する。
このケースでは、任意の状況で利用可能なアクションの数を減らすことで、アフォーダンスが二重の役割を担います。
本稿では,よりシンプルで一般化された遷移モデルを推定するために,余裕を学習し,それを利用するアプローチを提案する。
- 参考スコア(独自算出の注目度): 65.70524105802156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms usually assume that all actions are always
available to an agent. However, both people and animals understand the general
link between the features of their environment and the actions that are
feasible. Gibson (1977) coined the term "affordances" to describe the fact that
certain states enable an agent to do certain actions, in the context of
embodied agents. In this paper, we develop a theory of affordances for agents
who learn and plan in Markov Decision Processes. Affordances play a dual role
in this case. On one hand, they allow faster planning, by reducing the number
of actions available in any given situation. On the other hand, they facilitate
more efficient and precise learning of transition models from data, especially
when such models require function approximation. We establish these properties
through theoretical results as well as illustrative examples. We also propose
an approach to learn affordances and use it to estimate transition models that
are simpler and generalize better.
- Abstract(参考訳): 強化学習アルゴリズムは通常、すべてのアクションがエージェントに常に利用可能であると仮定する。
しかし、人間と動物は、環境の特徴と実行可能な行動との一般的なつながりを理解している。
gibson (1977) は、特定の州が特定の行動を行うことができるという事実を具体化エージェントの文脈で表現するために、"affordances" という用語を作った。
本稿では,マルコフ決定過程を学習し,計画するエージェントに対する費用対効果の理論を考案する。
この場合、倍増は二重の役割を担います。
一方、任意の状況で利用可能なアクションの数を減らすことで、より高速な計画が可能になる。
一方で、特にそのようなモデルが関数近似を必要とする場合、データから遷移モデルのより効率的で正確な学習を促進する。
理論的な結果と説明的な例によってこれらの性質を確立する。
また,それを用いて,よりシンプルで一般化された遷移モデルを推定する手法を提案する。
関連論文リスト
- EMOTE: An Explainable architecture for Modelling the Other Through
Empathy [26.85666453984719]
エージェントのアクション値関数をモデル化するシンプルなアーキテクチャを設計する。
我々は、他のエージェントの観察状態を変換する「イマジネーションネットワーク」を学習する。
これは、人間の解釈可能な「共感状態」を生成し、学習エージェントに提示されると、他のエージェントを模倣する振る舞いを生成する。
論文 参考訳(メタデータ) (2023-06-01T02:27:08Z) - Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文 参考訳(メタデータ) (2023-04-14T16:02:04Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Explainable Reinforcement Learning via Model Transforms [18.385505289067023]
基礎となるマルコフ決定プロセスが完全には分かっていないとしても、それにもかかわらず、自動的に説明を生成するために利用することができる、と我々は主張する。
本稿では,従来の文献で最適ポリシー探索の高速化に用いられていた形式的MDP抽象化と変換を用いて,説明を自動的に生成することを提案する。
論文 参考訳(メタデータ) (2022-09-24T13:18:06Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。