論文の概要: Evolving Hierarchical Memory-Prediction Machines in Multi-Task
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.12659v1
- Date: Wed, 23 Jun 2021 21:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 18:11:48.309307
- Title: Evolving Hierarchical Memory-Prediction Machines in Multi-Task
Reinforcement Learning
- Title(参考訳): マルチタスク強化学習における階層型メモリ予測マシンの進化
- Authors: Stephen Kelly, Tatiana Voegerl, Wolfgang Banzhaf, Cedric Gondro
- Abstract要約: 行動エージェントは、時間とともに様々な環境や目的にまたがって一般化されなければならない。
遺伝的プログラミングを用いて、制御文献から6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。
進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
- 参考スコア(独自算出の注目度): 4.030910640265943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A fundamental aspect of behaviour is the ability to encode salient features
of experience in memory and use these memories, in combination with current
sensory information, to predict the best action for each situation such that
long-term objectives are maximized. The world is highly dynamic, and
behavioural agents must generalize across a variety of environments and
objectives over time. This scenario can be modeled as a partially-observable
multi-task reinforcement learning problem. We use genetic programming to evolve
highly-generalized agents capable of operating in six unique environments from
the control literature, including OpenAI's entire Classic Control suite. This
requires the agent to support discrete and continuous actions simultaneously.
No task-identification sensor inputs are provided, thus agents must identify
tasks from the dynamics of state variables alone and define control policies
for each task. We show that emergent hierarchical structure in the evolving
programs leads to multi-task agents that succeed by performing a temporal
decomposition and encoding of the problem environments in memory. The resulting
agents are competitive with task-specific agents in all six environments.
Furthermore, the hierarchical structure of programs allows for dynamic run-time
complexity, which results in relatively efficient operation.
- Abstract(参考訳): 行動の基本的な側面は、記憶における経験の突出した特徴をエンコードし、これらの記憶を現在の感覚情報と組み合わせて、長期的な目標を最大化するような各状況に対する最善の行動を予測する能力である。
世界は非常にダイナミックで、行動エージェントは時間とともに様々な環境や目的にまたがって一般化する必要がある。
このシナリオは、部分的に観測可能なマルチタスク強化学習問題としてモデル化することができる。
遺伝的プログラミングを用いて、OpenAIのClassic Controlスイートを含む6つのユニークな環境で動作可能な、高度に一般化されたエージェントを進化させる。
これはエージェントが離散的および連続的なアクションを同時にサポートする必要がある。
タスク識別センサーの入力は提供されないため、エージェントは状態変数のダイナミクスからタスクを識別し、各タスクの制御ポリシーを定義する必要がある。
進化するプログラムにおける創発的階層構造は、時間分解とメモリ上の問題環境の符号化を成功させるマルチタスクエージェントをもたらすことを示す。
結果として得られるエージェントは、6つの環境すべてにおいてタスク固有のエージェントと競合する。
さらに、プログラムの階層構造は動的実行時の複雑さを許容し、これは比較的効率的な操作をもたらす。
関連論文リスト
- Model Evolution Framework with Genetic Algorithm for Multi-Task Reinforcement Learning [85.91908329457081]
マルチタスク強化学習は、様々なシナリオにまたがって一般化可能なエージェントを開発することを目的として、様々なタスクを完遂するために単一のポリシーを採用する。
既存のアプローチでは、ルーティングネットワークを使用して各タスクの特定のルートを生成し、モジュールのセットをさまざまなモデルに再構築し、複数のタスクを同時に完了させるのが一般的である。
本稿では,遺伝的アルゴリズム(MEGA)を用いたモデル進化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T09:22:34Z) - Toward Task Generalization via Memory Augmentation in Meta-Reinforcement Learning [43.69919534800985]
強化学習(RL)では、エージェントは訓練中に遭遇したタスクと異なるタスクをうまくこなすのに苦労することが多い。
この制限は、多種多様な動的タスク設定におけるRLの広範な展開に課題をもたらす。
タスクの一般化を改善するためのメモリベースRLアプローチであるメモリ拡張を導入する。
論文 参考訳(メタデータ) (2025-02-03T17:00:19Z) - QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
ペットに匹敵するアジリティで多様なコマンドに従うように設計されたQuadrupedGPTを紹介します。
エージェントは多種多様なタスクを処理し,複雑な指示を行う能力を示し,多種多様四重化エージェントの開発に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and Agent Generation [41.21899915378596]
動的タスク分解・エージェント生成(TDAG)に基づくマルチエージェントフレームワークを提案する。
このフレームワークは複雑なタスクを小さなサブタスクに動的に分解し、それぞれが特定の生成されたサブエージェントに割り当てる。
ItineraryBenchは、さまざまな複雑さのタスク間でのメモリ、計画、ツール使用量のエージェントの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-02-15T18:27:37Z) - RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid
Hierarchical Learning for Solving Complex Sequential Tasks [70.69063219750952]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。
ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。
実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文 参考訳(メタデータ) (2023-06-30T20:35:22Z) - Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [7.821603097781892]
我々は、予期せぬ現象、すなわちテクストノベルティが環境中に現れるときに生じる課題に対処する。
環境への新規性の導入は、プランナーの内部モデルに不正確な結果をもたらす可能性がある。
本稿では,同時動作と外部スケジューリングをサポートするための汎用AIエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-22T03:44:04Z) - Relax, it doesn't matter how you get there: A new self-supervised
approach for multi-timescale behavior analysis [8.543808476554695]
我々は,2つの新しい構成要素を組み合わせた行動のマルチタスク表現学習モデルを開発した。
我々のモデルは、全体およびすべてのグローバルタスクにおいて、9つのフレームレベルタスクのうち7つのうち1番目または2番目をランク付けします。
論文 参考訳(メタデータ) (2023-03-15T17:58:48Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Reinforcement Learning for Location-Aware Scheduling [1.0660480034605238]
倉庫環境の様々な側面がパフォーマンスや実行の優先順位にどのように影響するかを示す。
位置認識型マルチエージェントシステムのための状態空間と動作空間のコンパクト表現を提案する。
また、特定の環境で訓練されたエージェントが、完全に見えない環境でパフォーマンスを維持する方法を示す。
論文 参考訳(メタデータ) (2022-03-07T15:51:00Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。