論文の概要: Smaller Abstract State Spaces Enable Cross-Scale Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.20272v1
- Date: Tue, 19 May 2026 02:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.256948
- Title: Smaller Abstract State Spaces Enable Cross-Scale Generalization in Reinforcement Learning
- Title(参考訳): 強化学習における大規模一般化を可能にするより小さな抽象状態空間
- Authors: Nasehatul Mustakim, Lucas Lehnert,
- Abstract要約: 本稿では,RLエージェントにおいてアウト・オブ・ディストリビューションの一般化を実現するための理論モデルを提案する。
我々はエージェントのOODテスト性能に拘束力を与え、OODの一般化が達成可能な条件を定義する。
我々の分析は、より複雑なタスクへの一般化を達成するためには、エージェントを有限個の抽象状態の小さな集合上で動作させることが重要であることを示唆している。
- 参考スコア(独自算出の注目度): 1.8354627928712421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While humans readily generalize abstract concepts to more complex or larger tasks, building Reinforcement Learning (RL) systems with this ability remains elusive. Here, we present the first theoretical model of how such Out-of-Distribution (OOD) generalization can be achieved in RL agents. Our approach considers Partially Observable Markov Decision Processes (POMDPs) and assumes that an intelligent agent uses an abstraction function to determine which experiences can be treated as equivalent and which must be distinguished. First, we extend the existing state abstraction framework and proof techniques to POMDPs. Then, we define a successor-weighted model reduction, a model reduction variant that enables compression into smaller abstract spaces than prior definitions allow. We derive a bound on the agent's OOD test performance, thereby defining the conditions under which OOD generalization is achievable. This bound decomposes an agent's performance loss into approximation and estimation errors, revealing how reducing an agent's abstract state space size improves test performance and OOD generalization. Our analysis suggests that constraining an agent to operate over a small, finite set of abstract states is necessary for achieving generalization to more complex tasks. Our results motivate further research into learning RL architectures that scale across tasks of varying complexity levels.
- Abstract(参考訳): 人間は抽象概念を、より複雑なタスクやより大きなタスクに容易に一般化するが、強化学習(RL)システムを構築することは、まだ解明されていない。
本稿では、RLエージェントにおいて、このようなOOD(Out-of-Distribution)の一般化を実現するための最初の理論的モデルを示す。
提案手法では,部分観測可能なマルコフ決定過程(POMDP)を考察し,知的エージェントが抽象関数を用いて,どの体験を同等に扱うか,どの体験を区別すべきかを判断する。
まず、既存の状態抽象化フレームワークと証明技術をPOMDPに拡張する。
そこで我々は,従来の定義よりも小さな抽象空間への圧縮を可能にするモデル還元変種である,後続重み付きモデル還元を定義する。
我々はエージェントのOODテスト性能に拘束力を与え、OODの一般化が達成可能な条件を定義する。
このバウンダリは、エージェントのパフォーマンス損失を近似と推定エラーに分解し、エージェントの抽象状態空間サイズの削減がテストパフォーマンスとOODの一般化をいかに改善するかを明らかにする。
我々の分析は、より複雑なタスクへの一般化を達成するためには、エージェントを有限個の抽象状態の小さな集合上で動作させることが重要であることを示唆している。
我々の結果は、様々な複雑性レベルのタスクにまたがってスケールするRLアーキテクチャの学習に関するさらなる研究を動機付けている。
関連論文リスト
- Predictive Representations for Skill Transfer in Reinforcement Learning [46.51727738073925]
強化学習のスケールアップにおける主な課題は、学習した振る舞いを一般化することである。
我々は、状態抽象化による転送のための新しいフォーマリズムを開発する。
論文 参考訳(メタデータ) (2026-04-08T12:35:24Z) - Discovering State Equivalences in UCT Search Trees By Action Pruning [64.43268969806098]
We show that Ideal Pruning Abstractions in UCT (IPA-UCT) are out of OGA-UCT across a range of test domain and iteration budgets。
また、IPAとASAPはどちらもp-ASAPと呼ばれるより一般的なフレームワークの特殊なケースであることを示す。
論文 参考訳(メタデータ) (2025-10-30T10:54:43Z) - Causal Abstraction Inference under Lossy Representations [53.18851962820361]
我々は、既存の定義を一般化して損失表現に適合させる、投影抽象化と呼ばれる新しいタイプの抽象化を導入する。
低レベルモデルから投影された抽象化を構築する方法と、それと等価な観察的、介入的、および反ファクト的因果クエリを低レベルから高レベルに翻訳する方法を示す。
論文 参考訳(メタデータ) (2025-09-25T21:20:42Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Finding Alignments Between Interpretable Causal Variables and
Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。
既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。
これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文 参考訳(メタデータ) (2023-03-05T00:57:49Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。