論文の概要: Categorical semantics of compositional reinforcement learning
- arxiv url: http://arxiv.org/abs/2208.13687v1
- Date: Mon, 29 Aug 2022 15:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-08-30 14:41:18.853471
- Title: Categorical semantics of compositional reinforcement learning
- Title(参考訳): 構成強化学習のカテゴリー意味論
- Authors: Georgios Bakirtzis, Michail Savvas, Ufuk Topcu
- Abstract要約: 強化学習(RL)はしばしば、問題をサブタスクに分解し、これらのタスクで学習した振る舞いを構成する必要がある。
分類的視点を用いたRLの補間理論の枠組みを開発する。
mathsfMDP$は特定の繊維製品やプッシュアウトなどの自然な構成操作を許容することを示す。
- 参考スコア(独自算出の注目度): 25.752647944862183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) often requires decomposing a problem into
subtasks and composing learned behaviors on these tasks. Compositionality in RL
has the potential to create modular subtask units that interface with other
system capabilities. However, generating compositional models requires the
characterization of minimal assumptions for the robustness of the compositional
feature. We develop a framework for a \emph{compositional theory} of RL using a
categorical point of view. Given the categorical representation of
compositionality, we investigate sufficient conditions under which
learning-by-parts results in the same optimal policy as learning on the whole.
In particular, our approach introduces a category $\mathsf{MDP}$, whose objects
are Markov decision processes (MDPs) acting as models of tasks. We show that
$\mathsf{MDP}$ admits natural compositional operations, such as certain fiber
products and pushouts. These operations make explicit compositional phenomena
in RL and unify existing constructions, such as puncturing hazardous states in
composite MDPs and incorporating state-action symmetry. We also model
sequential task completion by introducing the language of zig-zag diagrams that
is an immediate application of the pushout operation in $\mathsf{MDP}$.
- Abstract(参考訳): 強化学習(rl)は、しばしば問題をサブタスクに分解し、これらのタスクで学習行動を構成する必要がある。
RLにおける構成性は、他のシステム機能と相互作用するモジュラーサブタスクユニットを作成する可能性がある。
しかし、構成モデルを生成するには、構成的特徴の堅牢性に対する最小の仮定を特徴づける必要がある。
分類的観点から RL の 'emph{compositional theory} の枠組みを開発する。
構成性のカテゴリー的表現を考慮し,学習が全体としての学習と同じ最適政策をもたらす十分な条件について検討する。
特に,本手法では,タスクのモデルとして機能するマルコフ決定プロセス (MDP) を対象とするカテゴリ $\mathsf{MDP}$ を導入する。
我々は、$\mathsf{MDP}$が特定の繊維製品やプッシュアウトのような自然な構成操作を許容することを示す。
これらの操作はrlにおける明示的な合成現象を生じさせ、複合mdpにおける危険な状態の挿入や状態-作用対称性の導入といった既存の構成を統一する。
また、$\mathsf{MDP}$におけるプッシュアウト操作の即時適用であるzig-zagダイアグラムの言語を導入することで、逐次タスク補完をモデル化する。
関連論文リスト
- Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - What makes Models Compositional? A Theoretical View: With Supplement [60.284698521569936]
本稿では,構成関数の一般神経-記号的定義とその構成複雑性について述べる。
既存の汎用および特殊目的のシーケンス処理モデルがこの定義にどのように適合しているかを示し、それらを用いて構成複雑性を分析する。
論文 参考訳(メタデータ) (2024-05-02T20:10:27Z) - Discovering Abstract Symbolic Relations by Learning Unitary Group Representations [7.303827428956944]
記号演算完了(SOC)の原理的アプローチについて検討する。
SOCは離散記号間の抽象的関係をモデル化する際、ユニークな挑戦となる。
SOCは最小限のモデル(双線型写像)で、新しい分解アーキテクチャで効率的に解けることを実証する。
論文 参考訳(メタデータ) (2024-02-26T20:18:43Z) - SymbolicAI: A framework for logic-based approaches combining generative models and solvers [9.841285581456722]
生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。
我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文 参考訳(メタデータ) (2024-02-01T18:50:50Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - Dynamic MOdularized Reasoning for Compositional Structured Explanation
Generation [29.16040150962427]
ニューラルネットワークの構成一般化を改善するために,動的モジュール化推論モデル MORSE を提案する。
MORSEは推論プロセスを、各モジュールが機能単位を表すモジュールの組み合わせに分解する。
MORSEの合成一般化能力をテストするため、2つのベンチマークで解析木の長さと形状を増大させる実験を行った。
論文 参考訳(メタデータ) (2023-09-14T11:40:30Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Compositionality as Lexical Symmetry [42.37422271002712]
意味解析、命令追従、質問応答といったタスクでは、標準的なディープネットワークは小さなデータセットから合成的に一般化できない。
本稿では、モデルよりもデータ分布の対称性の制約として、構成性のドメイン一般およびモデル非依存の定式化を提案する。
LEXSYMと呼ばれる手法は,これらの変換を自動的に検出し,通常のニューラルシーケンスモデルのトレーニングデータに適用する。
論文 参考訳(メタデータ) (2022-01-30T21:44:46Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。