論文の概要: Learning Achievement Structure for Structured Exploration in Domains
with Sparse Reward
- arxiv url: http://arxiv.org/abs/2305.00508v1
- Date: Sun, 30 Apr 2023 15:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:57:26.702721
- Title: Learning Achievement Structure for Structured Exploration in Domains
with Sparse Reward
- Title(参考訳): スパースリワード領域における構造探索のための達成構造学習
- Authors: Zihan Zhou, Animesh Garg
- Abstract要約: 達成型環境のための多段階強化学習アルゴリズムSEA(Structured Exploration with Achievements)を提案する。
SEAは、まずオフラインデータを使用して、既知の成果の表現を決定的損失関数で学習し、次に学習した成果の依存グラフをアルゴリズムで復元し、最後に、既知の成果をマスターするポリシーをオンラインで学習する。
- 参考スコア(独自算出の注目度): 31.696284349602088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Structured Exploration with Achievements (SEA), a multi-stage
reinforcement learning algorithm designed for achievement-based environments, a
particular type of environment with an internal achievement set. SEA first uses
offline data to learn a representation of the known achievements with a
determinant loss function, then recovers the dependency graph of the learned
achievements with a heuristic algorithm, and finally interacts with the
environment online to learn policies that master known achievements and explore
new ones with a controller built with the recovered dependency graph. We
empirically demonstrate that SEA can recover the achievement structure
accurately and improve exploration in hard domains such as Crafter that are
procedurally generated with high-dimensional observations like images.
- Abstract(参考訳): 本稿では,達成度に基づく環境を想定した多段階強化学習アルゴリズムであるstructured exploration with achievement (sea)を提案する。
SEAは、まずオフラインデータを使用して、既知の成果の表現を決定的損失関数で学習し、次に、学習した成果の依存性グラフをヒューリスティックアルゴリズムで復元し、最後に、既知の成果をマスターするポリシーをオンラインで学習し、回復した依存グラフで構築されたコントローラで新しい成果を探索する。
我々は,海が達成構造を正確に回復できることを実証し,画像などの高次元観測により手続き的に生成する職人などのハード領域の探査を改善することを実証した。
関連論文リスト
- Hierarchically Gated Experts for Efficient Online Continual Learning [1.864621482724548]
連続学習モデルは、タスクが順次到着する制約の下で一連のタスクを学習することを目的としている。
オンライン連続学習は、タスクが未知であり、その代わりにデータが単一のストリームとして到着する、さらなる課題となる。
本稿では,これらの課題を識別する手法として,Gated Experts (GE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-22T23:27:20Z) - Language-guided Skill Learning with Temporal Variational Inference [38.733622157088035]
専門家によるデモンストレーションからスキル発見のためのアルゴリズムを提案する。
以上の結果から,本手法を応用したエージェントが,学習の促進に役立つスキルを発見できることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T07:19:23Z) - Learning Rational Subgoals from Demonstrations and Instructions [71.86713748450363]
本稿では,新しい目標を達成するための効率的な長期計画を支援する有用なサブゴール学習フレームワークを提案する。
我々のフレームワークの中核は合理的なサブゴール(RSG)の集合であり、基本的には環境状態上の二項分類器である。
目標記述が与えられた場合、学習したサブゴールと派生した依存関係は、A*やRTといった既成の計画アルゴリズムを促進する。
論文 参考訳(メタデータ) (2023-03-09T18:39:22Z) - Incremental Learning with Differentiable Architecture and Forgetting
Search [3.6868861317674524]
本研究では,NASを漸進学習に活用することで,分類タスクの性能向上が期待できることを示す。
本手法はRF信号と画像分類タスクの両方で評価し,最先端手法よりも最大10%の性能向上を達成できることを実証した。
論文 参考訳(メタデータ) (2022-05-19T21:47:26Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z) - Joint Deep Cross-Domain Transfer Learning for Emotion Recognition [46.322012908885775]
本稿では、リッチデータセットから学習した知識をソース・プールデータセットに共同で転送する学習戦略を提案する。
また,本手法は,認識性能の向上につながるクロスドメインな特徴を学習することができる。
論文 参考訳(メタデータ) (2020-03-24T22:30:42Z) - Automated Relational Meta-learning [95.02216511235191]
本稿では,クロスタスク関係を自動的に抽出し,メタ知識グラフを構築する自動リレーショナルメタ学習フレームワークを提案する。
我々は,2次元玩具の回帰と少数ショット画像分類に関する広範な実験を行い,ARMLが最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-03T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。