論文の概要: SAGE: Generating Symbolic Goals for Myopic Models in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.05079v1
- Date: Wed, 9 Mar 2022 22:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:42:36.398301
- Title: SAGE: Generating Symbolic Goals for Myopic Models in Deep Reinforcement
Learning
- Title(参考訳): SAGE:深層強化学習におけるミオピックモデルのためのシンボリックゴールの生成
- Authors: Andrew Chester, Michael Dann, Fabio Zambetta, John Thangarajah
- Abstract要約: 従来使用できなかった不完全モデルのクラスを利用するための学習と計画を組み合わせたアルゴリズムを提案する。
これは、象徴的な計画とニューラルネットワークのアプローチの長所を、タクシーの世界とマインクラフトのバリエーションで競合する手法を上回る、新しい方法で組み合わせたものだ。
- 参考スコア(独自算出の注目度): 18.37286885057802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning algorithms are typically more sample
efficient than their model-free counterparts, especially in sparse reward
problems. Unfortunately, many interesting domains are too complex to specify
the complete models required by traditional model-based approaches. Learning a
model takes a large number of environment samples, and may not capture critical
information if the environment is hard to explore. If we could specify an
incomplete model and allow the agent to learn how best to use it, we could take
advantage of our partial understanding of many domains. Existing hybrid
planning and learning systems which address this problem often impose highly
restrictive assumptions on the sorts of models which can be used, limiting
their applicability to a wide range of domains. In this work we propose SAGE,
an algorithm combining learning and planning to exploit a previously unusable
class of incomplete models. This combines the strengths of symbolic planning
and neural learning approaches in a novel way that outperforms competing
methods on variations of taxi world and Minecraft.
- Abstract(参考訳): モデルに基づく強化学習アルゴリズムは通常、モデルなしのアルゴリズムよりもサンプル効率が高い。
残念ながら、多くの興味深いドメインは、従来のモデルベースのアプローチで必要とされる完全なモデルを特定するには複雑すぎる。
モデルを学ぶには多くの環境サンプルが必要だが、環境の探索が難しい場合は重要な情報を捉えないこともある。
不完全なモデルを定義し、エージェントに最適な使い方を学ばせることができれば、多くのドメインに対する部分的理解を活用できるでしょう。
この問題に対処する既存のハイブリッド計画と学習システムは、利用可能なモデルの種類に非常に制限のある仮定を課し、幅広いドメインに適用性を制限することが多い。
本研究では,これまで使用できなかった不完全モデルのクラスを活用するための学習と計画を組み合わせたアルゴリズムであるSAGEを提案する。
これは、象徴的な計画とニューラルネットワークのアプローチの長所を、タクシーの世界とマインクラフトのバリエーションで競合する手法を上回る、新しい方法で組み合わせている。
関連論文リスト
- MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Neural Basis Models for Interpretability [33.51591891812176]
一般化加法モデル(GAMs)は本質的に解釈可能なモデルのクラスである。
形状関数の基底分解を利用するGAMの全く新しいサブファミリーを提案する。
少数の基底関数はすべての機能で共有され、与えられたタスクに対して共同で学習される。
論文 参考訳(メタデータ) (2022-05-27T17:31:19Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z) - Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a
Survey [1.2031796234206134]
モデルに基づく強化学習は、環境サンプルの必要性を減らすために、環境力学の明示的なモデルを生成する。
深層モデルに基づく手法の課題は、低いサンプルの複雑さを維持しながら高い予測力を達成することである。
本稿では, 与えられた遷移を明示的に計画すること, 学習した遷移を明示的に計画すること, 計画と遷移の両方をエンドツーエンドで学習することの3つのアプローチに基づく分類法を提案する。
論文 参考訳(メタデータ) (2020-08-11T08:49:04Z) - PAC Bounds for Imitation and Model-based Batch Learning of Contextual
Markov Decision Processes [31.83144400718369]
本稿では,コンテキスト記述子を用いたマルチタスク強化学習のバッチ化の問題点について考察する。
直接政策学習(DPL)、専門家の軌道から学習する模倣学習に基づくアプローチ、モデルに基づく学習という2つの一般的な学習アルゴリズムについて研究する。
論文 参考訳(メタデータ) (2020-06-11T11:57:08Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。