論文の概要: Theoretical Barriers in Bellman-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.11968v1
- Date: Mon, 17 Feb 2025 16:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:28.131781
- Title: Theoretical Barriers in Bellman-Based Reinforcement Learning
- Title(参考訳): ベルマンによる強化学習における理論的障壁
- Authors: Brieuc Pinon, Raphaël Jungers, Jean-Charles Delvenne,
- Abstract要約: 強化学習アルゴリズムは、しばしばサンプル化された状態の部分集合にベルマン方程式を強制する。
このアプローチが利用できないような単純な構造で逆例問題を構築する。
我々は、この否定的な結果を、文献からの別のアプローチに拡張する。
- 参考スコア(独自算出の注目度): 0.5530212768657544
- License:
- Abstract: Reinforcement Learning algorithms designed for high-dimensional spaces often enforce the Bellman equation on a sampled subset of states, relying on generalization to propagate knowledge across the state space. In this paper, we identify and formalize a fundamental limitation of this common approach. Specifically, we construct counterexample problems with a simple structure that this approach fails to exploit. Our findings reveal that such algorithms can neglect critical information about the problems, leading to inefficiencies. Furthermore, we extend this negative result to another approach from the literature: Hindsight Experience Replay learning state-to-state reachability.
- Abstract(参考訳): 高次元空間用に設計された強化学習アルゴリズムは、しばしば状態空間全体にわたって知識を伝播する一般化に頼って、状態の標本化された部分集合上でベルマン方程式を強制する。
本稿では,この共通アプローチの基本的限界を特定し,定式化する。
具体的には、このアプローチが利用できないような単純な構造で、逆例問題を構築する。
以上の結果から,これらのアルゴリズムは問題に関する重要な情報を無視し,効率の悪さにつながることが判明した。
さらに,この否定的な結果を,次の文献からの別のアプローチに拡張する。
関連論文リスト
- Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Regularizing (Stabilizing) Deep Learning Based Reconstruction Algorithms [0.0]
逆問題(inverse problem)が不適切であることはよく知られており、それらを意味のある方法で解決するためには正規化メソッドを使わなければならない。
近年、古典的正規化再構成アプローチは(深層学習に基づく)学習的再構成アルゴリズムによって非分類化されている。
そこで我々は,そのような(不安定な)学習的再構築手法を安定化し,正規化解を復元する,一定の正規化手法を提案する。
論文 参考訳(メタデータ) (2021-08-21T23:40:23Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z) - Model-Aware Regularization For Learning Approaches To Inverse Problems [11.314492463814817]
本稿では,逆問題に適用可能なディープラーニング手法の一般化誤差の解析を行う。
本稿では、フォワードマップの知識を活用してネットワークの一般化を改善する「プラグ・アンド・プレイ」レギュラーを提案する。
我々は,他の最先端手法に対するモデル認識型ディープラーニングアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T21:59:03Z) - Probably Approximately Correct Constrained Learning [135.48447120228658]
我々は、ほぼ正しい学習フレームワーク(PAC)に基づく一般化理論を開発する。
PAC学習可能なクラスも制約のある学習者であるという意味では,学習者の導入は学習問題を難しくするものではないことを示す。
このソリューションの特性を分析し,制約付き学習が公平でロバストな分類における問題にどのように対処できるかを説明する。
論文 参考訳(メタデータ) (2020-06-09T19:59:29Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - Generalization in Deep Learning [103.91623583928852]
本稿では,その容量,複雑性,アルゴリズムの不安定性,非破壊性,およびシャープなミニマにもかかわらず,ディープラーニングがなぜ,どのように一般化できるかに関する理論的知見を提供する。
また、ディープラーニングのための非空でない一般化保証を提供するためのアプローチについても論じる。
論文 参考訳(メタデータ) (2017-10-16T02:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。