論文の概要: A Theory of Abstraction in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.00397v1
- Date: Tue, 1 Mar 2022 12:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 18:35:31.482191
- Title: A Theory of Abstraction in Reinforcement Learning
- Title(参考訳): 強化学習における抽象理論
- Authors: David Abel
- Abstract要約: この論文では、強化学習における抽象論について述べる。
最初に、抽象化のプロセスを実行する関数に対して、3つのdesiderataを提供します。
次に、エージェントがこれらのデシダータに従って抽象化を学習する方法を明確にする、新しいアルゴリズムと分析のスイートを提示します。
- 参考スコア(独自算出の注目度): 18.976500531441346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning defines the problem facing agents that learn to make
good decisions through action and observation alone. To be effective problem
solvers, such agents must efficiently explore vast worlds, assign credit from
delayed feedback, and generalize to new experiences, all while making use of
limited data, computational resources, and perceptual bandwidth. Abstraction is
essential to all of these endeavors. Through abstraction, agents can form
concise models of their environment that support the many practices required of
a rational, adaptive decision maker. In this dissertation, I present a theory
of abstraction in reinforcement learning. I first offer three desiderata for
functions that carry out the process of abstraction: they should 1) preserve
representation of near-optimal behavior, 2) be learned and constructed
efficiently, and 3) lower planning or learning time. I then present a suite of
new algorithms and analysis that clarify how agents can learn to abstract
according to these desiderata. Collectively, these results provide a partial
path toward the discovery and use of abstraction that minimizes the complexity
of effective reinforcement learning.
- Abstract(参考訳): 強化学習は、行動と観察だけで良い判断をすることを学ぶエージェントが直面する問題を定義する。
効果的な問題解決のためには、そのようなエージェントは、膨大な世界を効率的に探索し、遅延したフィードバックから信用を割り当て、新しい体験に一般化する必要がある。
これらすべての取り組みには抽象化が不可欠です。
抽象化を通じてエージェントは、合理的で適応的な意思決定者に必要な多くのプラクティスをサポートする、環境の簡潔なモデルを形成することができる。
本稿では,強化学習における抽象理論について述べる。
最初に、抽象化のプロセスを実行する関数に3つのdeiderataを提供します。
1) 準最適行動の表現の保存
2) 効率的に学び、構築し、
3) 計画や学習時間の短縮。
次に、エージェントがこれらのデシダータに従って抽象化を学習する方法を明確にする、新しいアルゴリズムと分析のスイートを提示します。
総じて、これらの結果は効果的な強化学習の複雑さを最小化する抽象化の発見と利用への部分的パスを提供する。
関連論文リスト
- Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Neural Causal Abstractions [63.21695740637627]
我々は、変数とそのドメインをクラスタリングすることで、因果抽象化の新しいファミリーを開発する。
本稿では,ニューラルネットワークモデルを用いて,そのような抽象化が現実的に学習可能であることを示す。
本実験は、画像データを含む高次元設定に因果推論をスケールする方法を記述し、その理論を支持する。
論文 参考訳(メタデータ) (2024-01-05T02:00:27Z) - AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph [62.685920585838616]
抽象能力は人間の知性において必須であり、言語モデルでは未探索のままである。
本稿では、抽象知識の221Kテキスト記述を統一したエンテーメントグラフであるAbsPyramidを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:11:23Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z) - Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning [22.25237742815589]
多くの現実世界の問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T23:05:43Z) - Towards Computing an Optimal Abstraction for Structural Causal Models [16.17846886492361]
我々は抽象学習の問題に焦点をあてる。
我々は,情報損失の具体的な尺度を提案し,その新しい抽象化の学習への貢献について説明する。
論文 参考訳(メタデータ) (2022-08-01T14:35:57Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer [85.19766065886422]
我々は,抽象状態のマルコフ決定過程(MDP)を正確に学習し,複雑なエラーを避ける。
本手法は,最も難易度の高い3つのアーケード学習環境ゲームにおいて,強力な結果をもたらす。
学習した抽象MDPを新しい報酬関数に再利用することができ、スクラッチから訓練されたモデルフリーメソッドよりも1000倍少ないサンプルで高い報酬が得られる。
論文 参考訳(メタデータ) (2020-07-12T03:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。