論文の概要: Towards sample-efficient episodic control with DAC-ML
- arxiv url: http://arxiv.org/abs/2012.13779v1
- Date: Sat, 26 Dec 2020 16:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:43:39.434880
- Title: Towards sample-efficient episodic control with DAC-ML
- Title(参考訳): DAC-MLを用いた試料効率制御に向けて
- Authors: Ismael T. Freire, Adri\'an F. Amil, Vasiliki Vouloutsi, Paul F.M.J.
Verschure
- Abstract要約: 人工知能におけるサンプル効率問題は、少数のエピソードでアクションポリシーを最適化する現在のDeep Reinforcement Learningモデルが存在しないことを指す。
近年の研究では、学習速度を改善するためにメモリシステムとアーキテクチャバイアスを追加することで、この制限を克服しようと試みている。
本稿では、心と脳の分散適応制御(DAC)理論の設計原理を利用して、新しい認知アーキテクチャを構築する。
- 参考スコア(独自算出の注目度): 0.5735035463793007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sample-inefficiency problem in Artificial Intelligence refers to the
inability of current Deep Reinforcement Learning models to optimize action
policies within a small number of episodes. Recent studies have tried to
overcome this limitation by adding memory systems and architectural biases to
improve learning speed, such as in Episodic Reinforcement Learning. However,
despite achieving incremental improvements, their performance is still not
comparable to how humans learn behavioral policies. In this paper, we
capitalize on the design principles of the Distributed Adaptive Control (DAC)
theory of mind and brain to build a novel cognitive architecture (DAC-ML) that,
by incorporating a hippocampus-inspired sequential memory system, can rapidly
converge to effective action policies that maximize reward acquisition in a
challenging foraging task.
- Abstract(参考訳): 人工知能におけるサンプル効率問題は、少数のエピソードでアクションポリシーを最適化する現在のDeep Reinforcement Learningモデルが存在しないことを指す。
近年の研究では、エピソード強化学習のような学習速度を改善するために、メモリシステムやアーキテクチャバイアスを追加することで、この制限を克服しようとしている。
しかし、漸進的な改善を達成しても、そのパフォーマンスは人間の行動方針の学習方法に匹敵するものではない。
本稿では、脳と心の分散適応制御(DAC)理論の設計原理を活かして、海馬にインスパイアされたシーケンシャルメモリシステムを導入することで、挑戦的な捕食作業における報酬獲得を最大化する効果的なアクションポリシーに迅速に収束できる新しい認知アーキテクチャ(DAC-ML)を構築する。
関連論文リスト
- CODE-CL: COnceptor-Based Gradient Projection for DEep Continual Learning [7.573297026523597]
我々は,Deep Continual Learning (CODE-CL) のためのConceptor-based gradient projectionを導入する。
CODE-CLは、過去のタスクの入力空間における方向的重要性を符号化し、新しい知識統合を1-S$で変調する。
概念に基づく表現を用いてタスク重複を分析し,高い相関性を持つタスクを同定する。
論文 参考訳(メタデータ) (2024-11-21T22:31:06Z) - Incorporating Neuro-Inspired Adaptability for Continual Learning in
Artificial Intelligence [59.11038175596807]
継続的な学習は、現実世界に強い適応性を持つ人工知能を強化することを目的としている。
既存の進歩は主に、破滅的な忘れを克服するために記憶安定性を維持することに焦点を当てている。
本稿では,学習の可塑性を改善するため,パラメータ分布の古い記憶を適切に減衰させる汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T02:43:58Z) - Improving Performance in Continual Learning Tasks using Bio-Inspired
Architectures [4.2903672492917755]
我々は,シナプスの可塑性機構とニューロ変調を組み込んだ,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。
提案手法により,Split-MNIST,Split-CIFAR-10,Split-CIFAR-100データセット上でのオンライン連続学習性能が向上する。
さらに,鍵設計概念を他のバックプロパゲーションに基づく連続学習アルゴリズムに統合することにより,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-08T19:12:52Z) - Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。
評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文 参考訳(メタデータ) (2023-03-21T06:45:14Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Enhancing reinforcement learning by a finite reward response filter with
a case study in intelligent structural control [0.0]
多くの強化学習(RL)問題では、エージェントの作用が環境に最大限の影響を及ぼすまで、しばらく時間がかかる。
本稿では,学習段階の開始時にエージェントがひとつの行動をとる,適用可能な拡張Q-ラーニング手法を提案する。
本研究では, 地震応答を受ける建物の振動を所定遅延で低減することを目的とした構造制御問題に対して, 提案手法を適用した。
論文 参考訳(メタデータ) (2020-10-25T19:28:35Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。