論文の概要: What can I do here? A Theory of Affordances in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.15085v1
- Date: Fri, 26 Jun 2020 16:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:47:55.271120
- Title: What can I do here? A Theory of Affordances in Reinforcement Learning
- Title(参考訳): ここで何ができますか。
強化学習における余裕の理論
- Authors: Khimya Khetarpal, Zafarali Ahmed, Gheorghe Comanici, David Abel, Doina
Precup
- Abstract要約: 我々はマルコフ決定過程の学習と計画を行うエージェントのための余裕の理論を開発する。
このケースでは、任意の状況で利用可能なアクションの数を減らすことで、アフォーダンスが二重の役割を担います。
本稿では,よりシンプルで一般化された遷移モデルを推定するために,余裕を学習し,それを利用するアプローチを提案する。
- 参考スコア(独自算出の注目度): 65.70524105802156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms usually assume that all actions are always
available to an agent. However, both people and animals understand the general
link between the features of their environment and the actions that are
feasible. Gibson (1977) coined the term "affordances" to describe the fact that
certain states enable an agent to do certain actions, in the context of
embodied agents. In this paper, we develop a theory of affordances for agents
who learn and plan in Markov Decision Processes. Affordances play a dual role
in this case. On one hand, they allow faster planning, by reducing the number
of actions available in any given situation. On the other hand, they facilitate
more efficient and precise learning of transition models from data, especially
when such models require function approximation. We establish these properties
through theoretical results as well as illustrative examples. We also propose
an approach to learn affordances and use it to estimate transition models that
are simpler and generalize better.
- Abstract(参考訳): 強化学習アルゴリズムは通常、すべてのアクションがエージェントに常に利用可能であると仮定する。
しかし、人間と動物は、環境の特徴と実行可能な行動との一般的なつながりを理解している。
gibson (1977) は、特定の州が特定の行動を行うことができるという事実を具体化エージェントの文脈で表現するために、"affordances" という用語を作った。
本稿では,マルコフ決定過程を学習し,計画するエージェントに対する費用対効果の理論を考案する。
この場合、倍増は二重の役割を担います。
一方、任意の状況で利用可能なアクションの数を減らすことで、より高速な計画が可能になる。
一方で、特にそのようなモデルが関数近似を必要とする場合、データから遷移モデルのより効率的で正確な学習を促進する。
理論的な結果と説明的な例によってこれらの性質を確立する。
また,それを用いて,よりシンプルで一般化された遷移モデルを推定する手法を提案する。
関連論文リスト
- Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文 参考訳(メタデータ) (2024-10-23T17:59:52Z) - Strategic Classification With Externalities [11.36782598786846]
戦略分類問題の新しい変種を提案する。
実世界のアプリケーションによって動機づけられた我々のモデルは、あるエージェントの操作が他のエージェントに影響を与えることを決定的に許している。
特定の仮定の下では、このエージェント操作ゲームの純粋なナッシュ平衡はユニークであり、効率的に計算できることが示される。
論文 参考訳(メタデータ) (2024-10-10T15:28:04Z) - Accelerating Hybrid Agent-Based Models and Fuzzy Cognitive Maps: How to Combine Agents who Think Alike? [0.0]
我々は, 思考するエージェントを「等しく考えるエージェント」と組み合わせることで, 個体数と計算時間を短縮する近似を提示する。
我々の革新は、エージェントの動作をルールのネットワークとして表現し、これらのネットワーク間の距離の異なる測度を経験的に評価することに依存します。
論文 参考訳(メタデータ) (2024-09-01T19:45:15Z) - On Stateful Value Factorization in Multi-Agent Reinforcement Learning [19.342676562701794]
そこで我々はDuelmixを紹介した。Duelmixは、各エージェント毎のユーティリティ推定器を学習し、性能を向上する。
StarCraft IIのマイクロマネジメントとBox Pushingタスクの実験は、私たちの直感の利点を示しています。
論文 参考訳(メタデータ) (2024-08-27T19:45:26Z) - EMOTE: An Explainable architecture for Modelling the Other Through
Empathy [26.85666453984719]
エージェントのアクション値関数をモデル化するシンプルなアーキテクチャを設計する。
我々は、他のエージェントの観察状態を変換する「イマジネーションネットワーク」を学習する。
これは、人間の解釈可能な「共感状態」を生成し、学習エージェントに提示されると、他のエージェントを模倣する振る舞いを生成する。
論文 参考訳(メタデータ) (2023-06-01T02:27:08Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。