論文の概要: Categorical semantics of compositional reinforcement learning
- arxiv url: http://arxiv.org/abs/2208.13687v1
- Date: Mon, 29 Aug 2022 15:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:41:18.853471
- Title: Categorical semantics of compositional reinforcement learning
- Title(参考訳): 構成強化学習のカテゴリー意味論
- Authors: Georgios Bakirtzis, Michail Savvas, Ufuk Topcu
- Abstract要約: 強化学習(RL)はしばしば、問題をサブタスクに分解し、これらのタスクで学習した振る舞いを構成する必要がある。
分類的視点を用いたRLの補間理論の枠組みを開発する。
mathsfMDP$は特定の繊維製品やプッシュアウトなどの自然な構成操作を許容することを示す。
- 参考スコア(独自算出の注目度): 25.752647944862183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) often requires decomposing a problem into
subtasks and composing learned behaviors on these tasks. Compositionality in RL
has the potential to create modular subtask units that interface with other
system capabilities. However, generating compositional models requires the
characterization of minimal assumptions for the robustness of the compositional
feature. We develop a framework for a \emph{compositional theory} of RL using a
categorical point of view. Given the categorical representation of
compositionality, we investigate sufficient conditions under which
learning-by-parts results in the same optimal policy as learning on the whole.
In particular, our approach introduces a category $\mathsf{MDP}$, whose objects
are Markov decision processes (MDPs) acting as models of tasks. We show that
$\mathsf{MDP}$ admits natural compositional operations, such as certain fiber
products and pushouts. These operations make explicit compositional phenomena
in RL and unify existing constructions, such as puncturing hazardous states in
composite MDPs and incorporating state-action symmetry. We also model
sequential task completion by introducing the language of zig-zag diagrams that
is an immediate application of the pushout operation in $\mathsf{MDP}$.
- Abstract(参考訳): 強化学習(rl)は、しばしば問題をサブタスクに分解し、これらのタスクで学習行動を構成する必要がある。
RLにおける構成性は、他のシステム機能と相互作用するモジュラーサブタスクユニットを作成する可能性がある。
しかし、構成モデルを生成するには、構成的特徴の堅牢性に対する最小の仮定を特徴づける必要がある。
分類的観点から RL の 'emph{compositional theory} の枠組みを開発する。
構成性のカテゴリー的表現を考慮し,学習が全体としての学習と同じ最適政策をもたらす十分な条件について検討する。
特に,本手法では,タスクのモデルとして機能するマルコフ決定プロセス (MDP) を対象とするカテゴリ $\mathsf{MDP}$ を導入する。
我々は、$\mathsf{MDP}$が特定の繊維製品やプッシュアウトのような自然な構成操作を許容することを示す。
これらの操作はrlにおける明示的な合成現象を生じさせ、複合mdpにおける危険な状態の挿入や状態-作用対称性の導入といった既存の構成を統一する。
また、$\mathsf{MDP}$におけるプッシュアウト操作の即時適用であるzig-zagダイアグラムの言語を導入することで、逐次タスク補完をモデル化する。
関連論文リスト
- Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - SymbolicAI: A framework for logic-based approaches combining generative models and solvers [9.841285581456722]
生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。
我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文 参考訳(メタデータ) (2024-02-01T18:50:50Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Compositionality as Lexical Symmetry [42.37422271002712]
意味解析、命令追従、質問応答といったタスクでは、標準的なディープネットワークは小さなデータセットから合成的に一般化できない。
本稿では、モデルよりもデータ分布の対称性の制約として、構成性のドメイン一般およびモデル非依存の定式化を提案する。
LEXSYMと呼ばれる手法は,これらの変換を自動的に検出し,通常のニューラルシーケンスモデルのトレーニングデータに適用する。
論文 参考訳(メタデータ) (2022-01-30T21:44:46Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。