論文の概要: Consciousness-Inspired Spatio-Temporal Abstractions for Better
Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.00229v3
- Date: Sun, 4 Feb 2024 17:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:53:06.297692
- Title: Consciousness-Inspired Spatio-Temporal Abstractions for Better
Generalization in Reinforcement Learning
- Title(参考訳): 強化学習における一般化のための意識に基づく時空間的抽象化
- Authors: Mingde Zhao, Safa Alver, Harm van Seijen, Romain Laroche, Doina
Precup, Yoshua Bengio
- Abstract要約: Skipperは、タスク時間を利用して、新しい状況下でスキルを学ぶモデルベースの強化学習エージェントである。
与えられたものをより小さく、より管理しやすいサブタスクに自動的に一般化し、スパースな意思決定を可能にする。
- 参考スコア(独自算出の注目度): 88.38772200150387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by human conscious planning, we propose Skipper, a model-based
reinforcement learning agent utilizing spatio-temporal abstractions to
generalize learned skills in novel situations. It automatically decomposes the
given task into smaller, more manageable subtasks, and hence enables sparse
decision-making and focused computation on the relevant parts of the
environment. This relies on the extraction of an abstracted proxy problem
represented as a directed graph, in which vertices and edges are learned
end-to-end from hindsight. Our theoretical analyses provide performance
guarantees under appropriate assumptions and establish where our approach is
expected to be helpful. Generalization-focused experiments validate Skipper's
significant advantage in zero-shot generalization, compared to existing
state-of-the-art hierarchical planning methods.
- Abstract(参考訳): 人間の意識に基づく計画に着想を得て,時空間的抽象化を用いたモデルベース強化学習エージェントskipperを提案する。
これにより、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に分解し、環境の関連部分のスパース決定と集中した計算を可能にする。
これは有向グラフとして表される抽象プロキシ問題の抽出に依存しており、頂点と辺は後から端から端まで学習される。
我々の理論分析は、適切な仮定の下で性能保証を提供し、我々のアプローチがどこに役立つかを確立する。
一般化にフォーカスした実験は、ゼロショット一般化におけるskipperの大きな利点を、既存の最先端の階層的計画法と比較して検証する。
関連論文リスト
- Symphony of experts: orchestration with adversarial insights in
reinforcement learning [0.0]
我々は、一連の専門家ポリシーが意思決定を導くオーケストレーションの概念を探求する。
我々は、自然政策勾配の分析を、任意の敵の集合戦略に拡張する。
われわれのアプローチの要点は、既存の方法に比べて明らかに透明な証明にある。
論文 参考訳(メタデータ) (2023-10-25T08:53:51Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Learning Expressive Priors for Generalization and Uncertainty Estimation
in Neural Networks [77.89179552509887]
本稿では,ディープニューラルネットワークにおける一般化と不確実性推定を推し進める新しい事前学習手法を提案する。
キーとなる考え方は、ニューラルネットワークのスケーラブルで構造化された後部を、一般化を保証する情報的事前として活用することである。
本研究では,不確実性推定と一般化における本手法の有効性を徹底的に示す。
論文 参考訳(メタデータ) (2023-07-15T09:24:33Z) - Explaining, Evaluating and Enhancing Neural Networks' Learned
Representations [2.1485350418225244]
より効率的で効率的な表現への障害ではなく、いかに説明可能性が助けになるかを示す。
我々は,2つの新しいスコアを定義して,潜伏埋め込みの難易度と難易度を評価する。
表現学習課題の訓練において,提案したスコアを制約として採用することで,モデルの下流性能が向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T19:00:01Z) - Disambiguation of weak supervision with exponential convergence rates [88.99819200562784]
教師付き学習では、データは不完全で差別的な情報で注釈付けされる。
本稿では,ある入力から潜在的な対象のセットが与えられる弱い監督の事例である部分的ラベリングに焦点を当てる。
弱い監督から完全な監督を回復する実証的曖昧化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-04T18:14:32Z) - Generalized Inverse Planning: Learning Lifted non-Markovian Utility for
Generalizable Task Representation [83.55414555337154]
本研究では,人間の実演からこのような有用性を学ぶことを研究する。
本稿では,本領域におけるユーティリティ学習のための新しい探索手法である一般化逆計画を提案する。
計算フレームワークである最大エントロピー逆計画(MEIP)について概説し、非マルコフ的効用と関連する概念を生成的に学習する。
論文 参考訳(メタデータ) (2020-11-12T21:06:26Z) - Randomized Value Functions via Posterior State-Abstraction Sampling [21.931580762349096]
我々は、潜在タスク構造を探究するエージェントは、その構造に対する不確実性を明確に表現し、維持する必要があると論じる。
本稿では、状態抽象化と抽象状態値の2つの後続分布を用いて、これを実現するための実用的なアルゴリズムを提案する。
私たちのアプローチを実証的に検証すると、マルチタスク設定でかなりのパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2020-10-05T23:04:18Z) - Information-Theoretic Abstractions for Planning in Agents with
Computational Constraints [16.565205172451662]
本稿では,元空間の抽象化に関する問題を解くことで,環境内の経路計画問題を体系的に近似する方法を示す。
数値的な例を提示し, アプローチの有用性を示し, 理論的知見を裏付ける。
論文 参考訳(メタデータ) (2020-05-19T17:32:10Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。