Fugu-MT 論文翻訳(概要): Categorical semantics of compositional reinforcement learning

論文の概要: Categorical semantics of compositional reinforcement learning

arxiv url: http://arxiv.org/abs/2208.13687v1
Date: Mon, 29 Aug 2022 15:51:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-30 14:41:18.853471
Title: Categorical semantics of compositional reinforcement learning
Title（参考訳）: 構成強化学習のカテゴリー意味論
Authors: Georgios Bakirtzis, Michail Savvas, Ufuk Topcu
Abstract要約: 強化学習(RL)はしばしば、問題をサブタスクに分解し、これらのタスクで学習した振る舞いを構成する必要がある。分類的視点を用いたRLの補間理論の枠組みを開発する。 mathsfMDP$は特定の繊維製品やプッシュアウトなどの自然な構成操作を許容することを示す。
参考スコア（独自算出の注目度）: 25.752647944862183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) often requires decomposing a problem into subtasks and composing learned behaviors on these tasks. Compositionality in RL has the potential to create modular subtask units that interface with other system capabilities. However, generating compositional models requires the characterization of minimal assumptions for the robustness of the compositional feature. We develop a framework for a \emph{compositional theory} of RL using a categorical point of view. Given the categorical representation of compositionality, we investigate sufficient conditions under which learning-by-parts results in the same optimal policy as learning on the whole. In particular, our approach introduces a category $\mathsf{MDP}$, whose objects are Markov decision processes (MDPs) acting as models of tasks. We show that $\mathsf{MDP}$ admits natural compositional operations, such as certain fiber products and pushouts. These operations make explicit compositional phenomena in RL and unify existing constructions, such as puncturing hazardous states in composite MDPs and incorporating state-action symmetry. We also model sequential task completion by introducing the language of zig-zag diagrams that is an immediate application of the pushout operation in $\mathsf{MDP}$.
Abstract（参考訳）: 強化学習(rl)は、しばしば問題をサブタスクに分解し、これらのタスクで学習行動を構成する必要がある。 RLにおける構成性は、他のシステム機能と相互作用するモジュラーサブタスクユニットを作成する可能性がある。しかし、構成モデルを生成するには、構成的特徴の堅牢性に対する最小の仮定を特徴づける必要がある。分類的観点から RL の 'emph{compositional theory} の枠組みを開発する。構成性のカテゴリー的表現を考慮し,学習が全体としての学習と同じ最適政策をもたらす十分な条件について検討する。特に,本手法では,タスクのモデルとして機能するマルコフ決定プロセス (MDP) を対象とするカテゴリ $\mathsf{MDP}$ を導入する。我々は、$\mathsf{MDP}$が特定の繊維製品やプッシュアウトのような自然な構成操作を許容することを示す。これらの操作はrlにおける明示的な合成現象を生じさせ、複合mdpにおける危険な状態の挿入や状態-作用対称性の導入といった既存の構成を統一する。また、$\mathsf{MDP}$におけるプッシュアウト操作の即時適用であるzig-zagダイアグラムの言語を導入することで、逐次タスク補完をモデル化する。

関連論文リスト

Zero-shot Compositional Action Recognition with Neural Logic Constraints [15.451848952659343]
ZS-CARは、訓練中に学習した動詞とオブジェクトプリミティブの知識を活用することで、ビデオ中の未確認動詞の合成を識別することを目的としている。構成的学習の進展にもかかわらず,(1)構成的構造的制約の欠如,(2)意味的階層的制約の無視,意味的曖昧さと訓練過程の障害という2つの重要な課題が続いている。我々は、人間のような象徴的推論が、構成的および階層的構造的抽象を明示的にモデル化することによって、これらの課題に対する原則的な解決策を提供すると主張する。
論文参考訳（メタデータ） (2025-08-04T11:40:42Z)
The Gauss-Markov Adjunction: Categorical Semantics of Residuals in Supervised Learning [0.0]
本稿では,AIシステムの構築と理解のためのセマンティックフレームワークを開発する。パラメータとデータに対応する2つの具体的なカテゴリとそれらの間の随伴関手を定義することにより、教師付き学習のカテゴリー的定式化を導入する。我々は、この定式化を教師付き学習のための拡張意味論の例として位置づけ、理論計算機科学で開発された意味論的視点をAIにおける説明可能性の形式的基礎として適用することを提案する。
論文参考訳（メタデータ） (2025-07-03T08:58:59Z)
Sparse Interpretable Deep Learning with LIES Networks for Symbolic Regression [22.345828337550575]
記号回帰は、データを正確に記述する閉形式の数学的表現を発見することを目的としている。既存のSR手法は、しばしば人口に基づく探索や自己回帰モデリングに依存している。 LIES(Logarithm, Identity, Exponential, Sine)は,シンボル表現のモデル化に最適化された,解釈可能なプリミティブアクティベーションを備えたニューラルネットワークアーキテクチャである。
論文参考訳（メタデータ） (2025-06-09T22:05:53Z)
Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。 CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文参考訳（メタデータ） (2024-10-16T18:10:50Z)
Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。また、ICL(In-context Learning)機能も備えている。複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文参考訳（メタデータ） (2024-07-22T15:22:34Z)
What makes Models Compositional? A Theoretical View: With Supplement [60.284698521569936]
本稿では,構成関数の一般神経-記号的定義とその構成複雑性について述べる。既存の汎用および特殊目的のシーケンス処理モデルがこの定義にどのように適合しているかを示し、それらを用いて構成複雑性を分析する。
論文参考訳（メタデータ） (2024-05-02T20:10:27Z)
Discovering Abstract Symbolic Relations by Learning Unitary Group Representations [7.303827428956944]
記号演算完了(SOC)の原理的アプローチについて検討する。 SOCは離散記号間の抽象的関係をモデル化する際、ユニークな挑戦となる。 SOCは最小限のモデル(双線型写像)で、新しい分解アーキテクチャで効率的に解けることを実証する。
論文参考訳（メタデータ） (2024-02-26T20:18:43Z)
SymbolicAI: A framework for logic-based approaches combining generative models and solvers [9.841285581456722]
生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。我々は,大規模言語モデル(LLM)を,自然言語命令と形式言語命令の両方に基づいてタスクを実行する意味的解決器として扱う。
論文参考訳（メタデータ） (2024-02-01T18:50:50Z)
Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。 CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文参考訳（メタデータ） (2024-01-23T05:43:15Z)
Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文参考訳（メタデータ） (2023-10-03T05:40:56Z)
Dynamic MOdularized Reasoning for Compositional Structured Explanation Generation [29.16040150962427]
ニューラルネットワークの構成一般化を改善するために,動的モジュール化推論モデル MORSE を提案する。 MORSEは推論プロセスを、各モジュールが機能単位を表すモジュールの組み合わせに分解する。 MORSEの合成一般化能力をテストするため、2つのベンチマークで解析木の長さと形状を増大させる実験を行った。
論文参考訳（メタデータ） (2023-09-14T11:40:30Z)
On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文参考訳（メタデータ） (2023-07-04T02:47:42Z)
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:16Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
Compositionality as Lexical Symmetry [42.37422271002712]
意味解析、命令追従、質問応答といったタスクでは、標準的なディープネットワークは小さなデータセットから合成的に一般化できない。本稿では、モデルよりもデータ分布の対称性の制約として、構成性のドメイン一般およびモデル非依存の定式化を提案する。 LEXSYMと呼ばれる手法は,これらの変換を自動的に検出し,通常のニューラルシーケンスモデルのトレーニングデータに適用する。
論文参考訳（メタデータ） (2022-01-30T21:44:46Z)
How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文参考訳（メタデータ） (2021-05-05T17:56:00Z)
Model-Invariant State Abstractions for Model-Based Reinforcement Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文参考訳（メタデータ） (2021-02-19T10:37:54Z)
Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文参考訳（メタデータ） (2020-07-14T17:25:27Z)
FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文参考訳（メタデータ） (2020-06-18T19:11:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。