Fugu-MT 論文翻訳(概要): Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning

論文の概要: Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.00229v4
Date: Sat, 16 Mar 2024 18:59:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 03:42:41.808701
Title: Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning
Title（参考訳）: 強化学習における一般化のための意識に着想を得た時空間的抽象化
Authors: Mingde Zhao, Safa Alver, Harm van Seijen, Romain Laroche, Doina Precup, Yoshua Bengio,
Abstract要約: Skipperはモデルベースの強化学習フレームワークである。これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
参考スコア（独自算出の注目度）: 83.41487567765871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inspired by human conscious planning, we propose Skipper, a model-based reinforcement learning framework utilizing spatio-temporal abstractions to generalize better in novel situations. It automatically decomposes the given task into smaller, more manageable subtasks, and thus enables sparse decision-making and focused computation on the relevant parts of the environment. The decomposition relies on the extraction of an abstracted proxy problem represented as a directed graph, in which vertices and edges are learned end-to-end from hindsight. Our theoretical analyses provide performance guarantees under appropriate assumptions and establish where our approach is expected to be helpful. Generalization-focused experiments validate Skipper's significant advantage in zero-shot generalization, compared to some existing state-of-the-art hierarchical planning methods.
Abstract（参考訳）: 人間の意識的な計画から着想を得たモデルベース強化学習フレームワークSkipperを提案する。これにより、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に分解し、環境の関連部分におけるスパースな意思決定と集中型計算を可能にします。この分解は、頂点と辺が後からエンドツーエンドに学習される有向グラフとして表される抽象的なプロキシ問題の抽出に依存する。我々の理論分析は、適切な仮定の下で性能保証を提供し、我々のアプローチが役に立つと期待される場所を確立する。一般化に焦点を当てた実験は、既存の最先端階層的計画法と比較して、ゼロショット一般化におけるスキッパーの顕著な優位性を検証する。

関連論文リスト

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。 FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文参考訳（メタデータ） (2026-03-05T06:08:50Z)
Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文参考訳（メタデータ） (2025-11-10T18:29:54Z)
Symphony of experts: orchestration with adversarial insights in reinforcement learning [0.0]
我々は、一連の専門家ポリシーが意思決定を導くオーケストレーションの概念を探求する。我々は、自然政策勾配の分析を、任意の敵の集合戦略に拡張する。われわれのアプローチの要点は、既存の方法に比べて明らかに透明な証明にある。
論文参考訳（メタデータ） (2023-10-25T08:53:51Z)
Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。 HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文参考訳（メタデータ） (2023-10-11T06:51:46Z)
An Option-Dependent Analysis of Regret Minimization Algorithms in Finite-Horizon Semi-Markov Decision Processes [47.037877670620524]
有限ホライゾン問題における後悔最小化アルゴリズムに苦しむ後悔に対するオプション依存上界について述べる。本稿では,階層構造によって強制される時間的抽象化によって誘導される計画的地平線低減から,性能改善が導かれることを示す。
論文参考訳（メタデータ） (2023-05-10T15:00:05Z)
Hierarchical State Abstraction Based on Structural Information Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。 SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文参考訳（メタデータ） (2023-04-24T11:06:52Z)
Learning Stochastic Majority Votes by Minimizing a PAC-Bayes Generalization Bound [15.557653926558638]
分類器の有限アンサンブルに対する多数票の対について検討し、その一般化特性について検討する。ディリクレ分布でインスタンス化し、予測されるリスクに対して閉じた形式と微分可能な表現を可能にする。結果の多数決学習アルゴリズムは、最先端の精度と(非空きな)厳密な境界から恩恵を得る。
論文参考訳（メタデータ） (2021-06-23T16:57:23Z)
Disambiguation of weak supervision with exponential convergence rates [88.99819200562784]
教師付き学習では、データは不完全で差別的な情報で注釈付けされる。本稿では,ある入力から潜在的な対象のセットが与えられる弱い監督の事例である部分的ラベリングに焦点を当てる。弱い監督から完全な監督を回復する実証的曖昧化アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-04T18:14:32Z)
Generalized Inverse Planning: Learning Lifted non-Markovian Utility for Generalizable Task Representation [83.55414555337154]
本研究では,人間の実演からこのような有用性を学ぶことを研究する。本稿では,本領域におけるユーティリティ学習のための新しい探索手法である一般化逆計画を提案する。計算フレームワークである最大エントロピー逆計画(MEIP)について概説し、非マルコフ的効用と関連する概念を生成的に学習する。
論文参考訳（メタデータ） (2020-11-12T21:06:26Z)
Randomized Value Functions via Posterior State-Abstraction Sampling [21.931580762349096]
我々は、潜在タスク構造を探究するエージェントは、その構造に対する不確実性を明確に表現し、維持する必要があると論じる。本稿では、状態抽象化と抽象状態値の2つの後続分布を用いて、これを実現するための実用的なアルゴリズムを提案する。私たちのアプローチを実証的に検証すると、マルチタスク設定でかなりのパフォーマンス向上が得られます。
論文参考訳（メタデータ） (2020-10-05T23:04:18Z)
Information-Theoretic Abstractions for Planning in Agents with Computational Constraints [16.565205172451662]
本稿では,元空間の抽象化に関する問題を解くことで,環境内の経路計画問題を体系的に近似する方法を示す。数値的な例を提示し, アプローチの有用性を示し, 理論的知見を裏付ける。
論文参考訳（メタデータ） (2020-05-19T17:32:10Z)
Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文参考訳（メタデータ） (2020-01-23T02:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。