論文の概要: Evolving Hierarchical Memory-Prediction Machines in Multi-Task
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.12659v1
- Date: Wed, 23 Jun 2021 21:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 18:11:48.309307
- Title: Evolving Hierarchical Memory-Prediction Machines in Multi-Task
Reinforcement Learning
- Title(参考訳): マルチタスク強化学習における階層型メモリ予測マシンの進化
- Authors: Stephen Kelly, Tatiana Voegerl, Wolfgang Banzhaf, Cedric Gondro
- Abstract要約: 行動エージェントは、時間とともに様々な環境や目的にまたがって一般化されなければならない。
遺伝的プログラミングを用いて、制御文献から6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。
進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
- 参考スコア(独自算出の注目度): 4.030910640265943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A fundamental aspect of behaviour is the ability to encode salient features
of experience in memory and use these memories, in combination with current
sensory information, to predict the best action for each situation such that
long-term objectives are maximized. The world is highly dynamic, and
behavioural agents must generalize across a variety of environments and
objectives over time. This scenario can be modeled as a partially-observable
multi-task reinforcement learning problem. We use genetic programming to evolve
highly-generalized agents capable of operating in six unique environments from
the control literature, including OpenAI's entire Classic Control suite. This
requires the agent to support discrete and continuous actions simultaneously.
No task-identification sensor inputs are provided, thus agents must identify
tasks from the dynamics of state variables alone and define control policies
for each task. We show that emergent hierarchical structure in the evolving
programs leads to multi-task agents that succeed by performing a temporal
decomposition and encoding of the problem environments in memory. The resulting
agents are competitive with task-specific agents in all six environments.
Furthermore, the hierarchical structure of programs allows for dynamic run-time
complexity, which results in relatively efficient operation.
- Abstract(参考訳): 行動の基本的な側面は、記憶における経験の突出した特徴をエンコードし、これらの記憶を現在の感覚情報と組み合わせて、長期的な目標を最大化するような各状況に対する最善の行動を予測する能力である。
世界は非常にダイナミックで、行動エージェントは時間とともに様々な環境や目的にまたがって一般化する必要がある。
このシナリオは、部分的に観測可能なマルチタスク強化学習問題としてモデル化することができる。
遺伝的プログラミングを用いて、OpenAIのClassic Controlスイートを含む6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。
これはエージェントが離散的および連続的なアクションを同時にサポートする必要がある。
タスク識別センサーの入力は提供されないため、エージェントは状態変数のダイナミクスからタスクを識別し、各タスクの制御ポリシーを定義する必要がある。
進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
結果として得られるエージェントは、6つの環境すべてにおいてタスク固有のエージェントと競合する。
さらに、プログラムの階層構造は動的実行時の複雑さを許容し、これは比較的効率的な操作をもたらす。
関連論文リスト
- TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and
Agent Generation [45.028795422801764]
動的タスク分解・エージェント生成(TDAG)に基づくマルチエージェントフレームワークを提案する。
このフレームワークは複雑なタスクを小さなサブタスクに動的に分解し、それぞれが特定の生成されたサブエージェントに割り当てる。
ItineraryBenchは、さまざまな複雑さのタスク間でのメモリ、計画、ツール使用量のエージェントの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-02-15T18:27:37Z) - RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid
Hierarchical Learning for Solving Complex Sequential Tasks [70.69063219750952]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。
ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。
実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文 参考訳(メタデータ) (2023-06-30T20:35:22Z) - Optimal task and motion planning and execution for human-robot
multi-agent systems in dynamic environments [54.39292848359306]
本稿では,タスクのシーケンシング,割り当て,実行を最適化するタスクと動作計画の組み合わせを提案する。
このフレームワークはタスクとアクションの分離に依存しており、アクションはシンボル的タスクの幾何学的実現の可能な1つの可能性である。
ロボットアームと人間の作業員がモザイクを組み立てる共同製造シナリオにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-27T01:50:45Z) - Relax, it doesn't matter how you get there: A new self-supervised
approach for multi-timescale behavior analysis [8.543808476554695]
我々は,2つの新しい構成要素を組み合わせた行動のマルチタスク表現学習モデルを開発した。
我々のモデルは、全体およびすべてのグローバルタスクにおいて、9つのフレームレベルタスクのうち7つのうち1番目または2番目をランク付けします。
論文 参考訳(メタデータ) (2023-03-15T17:58:48Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Reinforcement Learning for Location-Aware Scheduling [1.0660480034605238]
倉庫環境の様々な側面がパフォーマンスや実行の優先順位にどのように影響するかを示す。
位置認識型マルチエージェントシステムのための状態空間と動作空間のコンパクト表現を提案する。
また、特定の環境で訓練されたエージェントが、完全に見えない環境でパフォーマンスを維持する方法を示す。
論文 参考訳(メタデータ) (2022-03-07T15:51:00Z) - Hierarchically Structured Scheduling and Execution of Tasks in a
Multi-Agent Environment [1.0660480034605238]
倉庫環境では、タスクが動的に出現するので、早すぎると労働力にマッチするタスク管理システムは、必ずしも最適ではない。
本稿では,高レベルスケジューリング問題と低レベルマルチエージェント問題の両方を解決するために,深層強化学習を提案する。
論文 参考訳(メタデータ) (2022-03-06T18:11:34Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。