論文の概要: Categorical semantics of compositional reinforcement learning
- arxiv url: http://arxiv.org/abs/2208.13687v2
- Date: Tue, 11 Mar 2025 01:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:39:07.532404
- Title: Categorical semantics of compositional reinforcement learning
- Title(参考訳): 構成強化学習のカテゴリー的意味論
- Authors: Georgios Bakirtzis, Michail Savvas, Ufuk Topcu,
- Abstract要約: 我々は、強化学習(RL)の構成理論のための知識表現フレームワークを開発する。
我々のアプローチは、タスクのモデルとして働くマルコフ決定過程(MDP)を対象とする$mathsfMDP$の理論的研究に依存する。
圏 $mathsfMDP$ で表される構成保証に依存するジグザグ図形を導入する。
- 参考スコア(独自算出の注目度): 18.406992961818368
- License:
- Abstract: Compositional knowledge representations in reinforcement learning (RL) facilitate modular, interpretable, and safe task specifications. However, generating compositional models requires the characterization of minimal assumptions for the robustness of the compositionality feature, especially in the case of functional decompositions. Using a categorical point of view, we develop a knowledge representation framework for a compositional theory of RL. Our approach relies on the theoretical study of the category $\mathsf{MDP}$, whose objects are Markov decision processes (MDPs) acting as models of tasks. The categorical semantics models the compositionality of tasks through the application of pushout operations akin to combining puzzle pieces. As a practical application of these pushout operations, we introduce zig-zag diagrams that rely on the compositional guarantees engendered by the category $\mathsf{MDP}$. We further prove that properties of the category $\mathsf{MDP}$ unify concepts, such as enforcing safety requirements and exploiting symmetries, generalizing previous abstraction theories for RL.
- Abstract(参考訳): 強化学習(RL)における構成的知識表現は、モジュラー、解釈可能、安全なタスク仕様を促進する。
しかし、構成モデルを生成するには、特に函数分解の場合において、構成性の特徴のロバスト性に対する最小の仮定を特徴づける必要がある。
分類的観点から、RLの合成理論のための知識表現フレームワークを開発する。
我々のアプローチは、タスクのモデルとして働くマルコフ決定過程(MDP)を対象とする圏 $\mathsf{MDP}$ の理論的研究に依存する。
分類論的意味論は、パズルのピースを組み合わせるのに類似したプッシュアウト操作を適用することによって、タスクの構成性をモデル化する。
これらのプッシュアウト演算の実践的な応用として、$\mathsf{MDP}$ というカテゴリで表される構成保証に依存するジグザグ図形を導入する。
さらに、$\mathsf{MDP}$というカテゴリの特性が、安全要件の強制や対称性の活用、RLの以前の抽象理論の一般化といった概念を統一することを証明する。
関連論文リスト
- Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - SymbolicAI: A framework for logic-based approaches combining generative models and solvers [9.841285581456722]
生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。
我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文 参考訳(メタデータ) (2024-02-01T18:50:50Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Compositionality as Lexical Symmetry [42.37422271002712]
意味解析、命令追従、質問応答といったタスクでは、標準的なディープネットワークは小さなデータセットから合成的に一般化できない。
本稿では、モデルよりもデータ分布の対称性の制約として、構成性のドメイン一般およびモデル非依存の定式化を提案する。
LEXSYMと呼ばれる手法は,これらの変換を自動的に検出し,通常のニューラルシーケンスモデルのトレーニングデータに適用する。
論文 参考訳(メタデータ) (2022-01-30T21:44:46Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。