論文の概要: Affordance as general value function: A computational model
- arxiv url: http://arxiv.org/abs/2010.14289v3
- Date: Sat, 8 May 2021 00:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:05:37.188774
- Title: Affordance as general value function: A computational model
- Title(参考訳): 一般価値関数としての余裕:計算モデル
- Authors: Daniel Graves, Johannes G\"unther, Jun Luo
- Abstract要約: 一般値関数(英: General value function, GVFs)は、環境における特定のポリシーに従うエージェントの結果の長期的な予測的要約である。
本研究は,GVFが直接知覚の形式としてアベイランス予測を実現していることを示す。
我々は,GVFが実世界のアプリケーションにおいて,学費を学べる適切なフレームワークを提供することを示した。
- 参考スコア(独自算出の注目度): 8.34897697233928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General value functions (GVFs) in the reinforcement learning (RL) literature
are long-term predictive summaries of the outcomes of agents following specific
policies in the environment. Affordances as perceived action possibilities with
specific valence may be cast into predicted policy-relative goodness and
modelled as GVFs. A systematic explication of this connection shows that GVFs
and especially their deep learning embodiments (1) realize affordance
prediction as a form of direct perception, (2) illuminate the fundamental
connection between action and perception in affordance, and (3) offer a
scalable way to learn affordances using RL methods. Through an extensive review
of existing literature on GVF applications and representative affordance
research in robotics, we demonstrate that GVFs provide the right framework for
learning affordances in real-world applications. In addition, we highlight a
few new avenues of research opened up by the perspective of "affordance as
GVF", including using GVFs for orchestrating complex behaviors.
- Abstract(参考訳): 強化学習(rl)文学における一般価値関数(gvfs)は、環境における特定の政策に従うエージェントの成果の長期予測要約である。
特定の原子価に対する作用の可能性として認識される確率は、予測された政策相対的善意に投入され、GVFとしてモデル化される。
この関係を体系的に説明すると,GVF,特に深層学習の実施形態は,(1)直接知覚の形式としての可利用性予測を実現し,(2)可利用性における行動と知覚の基本的な関係を解明し,(3)RL法を用いて可利用性を学ぶためのスケーラブルな方法を提供する。
ロボット工学におけるGVF応用に関する既存の文献の広範なレビューを通じて、GVFsが現実世界の応用における可利用性を学ぶための適切な枠組みを提供することを示した。
さらに,GVFによる複雑な行動の整理など,GVFとしての認知という視点で開かれた新たな研究の方法をいくつか紹介する。
関連論文リスト
- Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。
既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文 参考訳(メタデータ) (2024-03-06T02:01:38Z) - A General Theoretical Paradigm to Understand Learning from Human
Preferences [33.65903139056413]
Psi$POという,対の選好で表される人間の選好から学習するための新しい汎用目的を導出する。
本研究の目的は,RLHF と DPO の挙動を詳細に解析することである。
論文 参考訳(メタデータ) (2023-10-18T15:21:28Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z) - A Unified Off-Policy Evaluation Approach for General Value Function [131.45028999325797]
一般価値関数(GVF)は、強化学習(RL)における予測的知識と振り返り的知識の両方を表現する強力なツールである。
本稿では,GVF評価のためのGenTDと呼ばれる新しいアルゴリズムを提案する。
我々は、GenTDが単一の標準スカラー値関数と同じくらい効率的に複数の相互関連多次元GVFを学習することを示す。
論文 参考訳(メタデータ) (2021-07-06T16:20:34Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。