論文の概要: Universal Reinforcement Learning in Coalgebras: Asynchronous Stochastic Computation via Conduction
- arxiv url: http://arxiv.org/abs/2508.15128v1
- Date: Wed, 20 Aug 2025 23:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.128463
- Title: Universal Reinforcement Learning in Coalgebras: Asynchronous Stochastic Computation via Conduction
- Title(参考訳): Coalgebrasにおける普遍的強化学習:導電性による非同期確率計算
- Authors: Sridhar Mahadevan,
- Abstract要約: 普遍強化学習(URL)と呼ばれるRLの分類的一般化を導入する。
論文の前半では、基本的なRLフレームワークをレビューし、RLにおけるカテゴリと関手の使用について説明し、それらが興味深い洞察にどのように導かれるかを示した。
我々は、RLで以前に研究された力学系モデルを拡張した、普遍的コガブラの広いファミリーについて述べる。
- 参考スコア(独自算出の注目度): 3.0316063849624477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a categorial generalization of RL, termed universal reinforcement learning (URL), building on powerful mathematical abstractions from the study of coinduction on non-well-founded sets and universal coalgebras, topos theory, and categorial models of asynchronous parallel distributed computation. In the first half of the paper, we review the basic RL framework, illustrate the use of categories and functors in RL, showing how they lead to interesting insights. In particular, we also introduce a standard model of asynchronous distributed minimization proposed by Bertsekas and Tsitsiklis, and describe the relationship between metric coinduction and their proof of the Asynchronous Convergence Theorem. The space of algorithms for MDPs or PSRs can be modeled as a functor category, where the co-domain category forms a topos, which admits all (co)limits, possesses a subobject classifier, and has exponential objects. In the second half of the paper, we move on to universal coalgebras. Dynamical system models, such as Markov decision processes (MDPs), partially observed MDPs (POMDPs), a predictive state representation (PSRs), and linear dynamical systems (LDSs) are all special types of coalgebras. We describe a broad family of universal coalgebras, extending the dynamic system models studied previously in RL. The core problem in finding fixed points in RL to determine the exact or approximate (action) value function is generalized in URL to determining the final coalgebra asynchronously in a parallel distributed manner.
- Abstract(参考訳): 本稿では,RLの分類的一般化である普遍強化学習(URL)を導入し,非基底集合と普遍的コガブラ,トポス理論,非同期並列分散計算の分類モデルの研究から,強力な数学的抽象化を構築した。
論文の前半では、基本的なRLフレームワークを概説し、RLにおけるカテゴリと関手の利用について説明し、それらが興味深い洞察にどのように導かれるかを示した。
特に,Bertsekas と Tsitsiklis が提唱した非同期分散最小化の標準モデルを導入し,計量の導出と非同期収束定理の証明との関係について述べる。
MDPやPSRのアルゴリズムの空間は関手圏としてモデル化することができ、コドメイン圏はすべての(コ)リミットを許容し、サブオブジェクト分類器を持ち、指数オブジェクトを持つトポを形成する。
論文の後半では、普遍的なコガブラに移行します。
マルコフ決定過程(MDPs)、部分的に観察されたMDP(PMMDPs)、予測状態表現(PSRs)、線形力学系(LDSs)といった力学系モデルは、すべて特別な種類のコガブラである。
我々は、RLで以前に研究された力学系モデルを拡張した、普遍的コガブラの広いファミリーについて述べる。
RLの固定点を求める際の中核的な問題は、正又は近似(動作)値関数をURLで一般化し、最終コージェブラを非同期に並列分散的に決定する。
関連論文リスト
- A theoretical framework for overfitting in energy-based modeling [5.1337384597700995]
相互作用ネットワークの同定を目的とした逆問題に対するペアワイズエネルギーベースモデルの学習における限られたデータの影響について検討する。
これらの時間スケールとトレーニングの初期条件との相互作用から早期停止の最適点が生じることを示す。
本稿では、スコアマッチングの下でのスコア関数のニューラルネットワークカーネルダイナミクスを導出することにより、任意のエネルギーベースモデルへの一般化を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:21:02Z) - Wasserstein proximal operators describe score-based generative models
and resolve memorization [12.321631823103894]
We first formulate SGMs with terms of Wasserstein proximal operator (WPO)
We show that WPO describe the inductive bias of diffusion and score-based model。
本稿では,SGMの性能を劇的に向上させる,スコア関数の解釈可能なカーネルベースモデルを提案する。
論文 参考訳(メタデータ) (2024-02-09T03:33:13Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Distributional Reinforcement Learning with Unconstrained Monotonic
Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。
制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-06T20:03:50Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。