論文の概要: Reduce, Reuse, Recycle: Categories for Compositional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.13376v2
- Date: Mon, 4 Nov 2024 14:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 05:26:28.450847
- Title: Reduce, Reuse, Recycle: Categories for Compositional Reinforcement Learning
- Title(参考訳): リサイクリング・リユース・リサイクリング:構成強化学習のためのカテゴリ
- Authors: Georgios Bakirtzis, Michail Savvas, Ruihan Zhao, Sandeep Chinchali, Ufuk Topcu,
- Abstract要約: 我々は圏論のプリズムを通してタスク構成を考察する。
マルコフ決定過程の分類的性質は、複雑なタスクを管理可能なサブタスクに切り離す。
実験結果は強化学習のカテゴリー理論を支持する。
- 参考スコア(独自算出の注目度): 19.821117942806474
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In reinforcement learning, conducting task composition by forming cohesive, executable sequences from multiple tasks remains challenging. However, the ability to (de)compose tasks is a linchpin in developing robotic systems capable of learning complex behaviors. Yet, compositional reinforcement learning is beset with difficulties, including the high dimensionality of the problem space, scarcity of rewards, and absence of system robustness after task composition. To surmount these challenges, we view task composition through the prism of category theory -- a mathematical discipline exploring structures and their compositional relationships. The categorical properties of Markov decision processes untangle complex tasks into manageable sub-tasks, allowing for strategical reduction of dimensionality, facilitating more tractable reward structures, and bolstering system robustness. Experimental results support the categorical theory of reinforcement learning by enabling skill reduction, reuse, and recycling when learning complex robotic arm tasks.
- Abstract(参考訳): 強化学習では、複数のタスクから結合性のある実行可能シーケンスを形成することでタスク構成を実行することは依然として困難である。
しかしながら、タスクを(分解する)能力は、複雑な振る舞いを学習できるロボットシステムの開発におけるリンチピンである。
しかし、構成強化学習には、問題空間の高次元性、報酬の不足、タスク構成後のシステム堅牢性の欠如など、困難が伴う。
これらの課題を克服するために、我々は圏論のプリズム(構造とその構成関係を探求する数学的分野)を通してタスク構成を考察する。
マルコフ決定過程のカテゴリー的性質は、複雑なタスクを管理可能なサブタスクに解き放つことで、次元性の戦略的削減を可能にし、よりトラクタブルな報酬構造を促進し、システムの堅牢性を高める。
複雑なロボットアームタスクを学習する際に、スキルの削減、再利用、リサイクルを可能にして強化学習のカテゴリー理論を支持する実験結果が得られた。
関連論文リスト
- Learning Top-k Subtask Planning Tree based on Discriminative Representation Pre-training for Decision Making [9.302910360945042]
複雑な現実世界のタスクから抽出された事前知識による計画は、人間が正確な決定を行うために不可欠である。
マルチエンコーダと個別予測器を導入し、簡単なサブタスクのための十分なデータからタスク固有表現を学習する。
また、注意機構を用いてトップkのサブタスク計画木を生成し、未確認タスクの複雑な決定を導くためにサブタスク実行計画をカスタマイズする。
論文 参考訳(メタデータ) (2023-12-18T09:00:31Z) - RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid
Hierarchical Learning for Solving Complex Sequential Tasks [70.69063219750952]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。
ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。
実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文 参考訳(メタデータ) (2023-06-30T20:35:22Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Robots Learn Increasingly Complex Tasks with Intrinsic Motivation and
Automatic Curriculum Learning [44.62475518267084]
ロボットによるマルチタスク学習は、タスクの複雑さ、必要なアクションの複雑さ、伝達学習におけるタスク間の関係といった、ドメイン知識の課題を提起する。
このドメイン知識は、生涯学習の課題に対処するために学習できることを実証する。
そこで本稿では,ロボットが複雑度の高い複数の制御タスクを実現するために,非境界複雑性の動作列を学習するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-11T08:14:16Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Solving Compositional Reinforcement Learning Problems via Task Reduction [18.120631058025406]
構成強化学習の課題を解決するための新しい学習パラダイムであるSelf-Imitation via reduction (SIR)を提案する。
SIRは、タスクの削減と自己模倣の2つのコアアイデアに基づいています。
実験の結果、sirは様々な難易度の低い連続制御問題の学習を著しく加速し改善できることが示されている。
論文 参考訳(メタデータ) (2021-03-13T03:26:33Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - Complex Skill Acquisition Through Simple Skill Imitation Learning [0.0]
本稿では,ニューラルネットワークのポリシーをシンプルで学習しやすいスキルで学習するアルゴリズムを提案する。
複雑なタスクが単純なサブタスクの同時(そしておそらくはシーケンシャルな)組み合わせである場合に焦点を当てる。
我々のアルゴリズムは、トレーニング速度と全体的な性能において、最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2020-07-20T17:06:26Z) - Lifelong Learning of Compositional Structures [26.524289609910653]
構成構造の生涯学習のための汎用フレームワークを提案する。
我々のフレームワークは学習プロセスを2つの広い段階に分け、新しい問題を同化するために既存のコンポーネントを最もうまく組み合わせる方法を学び、新しい問題に対応するために既存のコンポーネントの集合を適応する方法を学ぶ。
論文 参考訳(メタデータ) (2020-07-15T14:58:48Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。