論文の概要: Robust Decision-Making in Spatial Learning: A Comparative Study of
Successor Features and Predecessor Features Algorithms
- arxiv url: http://arxiv.org/abs/2304.06894v1
- Date: Fri, 14 Apr 2023 02:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:50:49.681496
- Title: Robust Decision-Making in Spatial Learning: A Comparative Study of
Successor Features and Predecessor Features Algorithms
- Title(参考訳): 空間学習におけるロバスト決定--継承的特徴と先行的特徴のアルゴリズムの比較
- Authors: Hyunsu Lee
- Abstract要約: ノイズのある1次元迷路環境下での逐次特徴量(SF)と事前特徴量(PF)のアルゴリズムの性能を比較した。
PFsは、累積報酬と平均ステップ長で連続的にSFより優れ、ノイズに対する反発性が高かった。
本研究は、強化学習アルゴリズムを用いた計算神経科学の理論的研究に寄与し、ロボット工学、ゲームAI、自律走行車ナビゲーションにおけるPFの実用可能性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predictive map theory, one of the theories explaining spatial learning in
animals, is based on successor representation (SR) learning algorithms. In the
real world, agents such as animals and robots are subjected to noisy
observations, which can lead to suboptimal actions or even failure during
learning. In this study, we compared the performance of Successor Features
(SFs) and Predecessor Features (PFs) algorithms in a noisy one-dimensional maze
environment. Our results demonstrated that PFs consistently outperformed SFs in
terms of cumulative reward and average step length, with higher resilience to
noise. This superiority could be due to PFs' ability to transmit temporal
difference errors to more preceding states. We also discuss the biological
mechanisms involved in PFs learning for spatial navigation. This study
contributes to the theoretical research on computational neuroscience using
reinforcement learning algorithms, and highlights the practical potential of
PFs in robotics, game AI, and autonomous vehicle navigation.
- Abstract(参考訳): 動物における空間学習を説明する理論の一つである予測地図理論は、後継表現(SR)学習アルゴリズムに基づいている。
現実の世界では、動物やロボットのようなエージェントは騒々しい観察を受けており、学習中に最適な行動や失敗につながる可能性がある。
本研究では,ノイズの多い1次元迷路環境下での継承特徴(SF)と先行特徴(PF)のアルゴリズムの性能を比較した。
以上の結果から,PFsは累積報酬と平均ステップ長で連続的にSFより優れ,ノイズに対する耐性が高かった。
この優位性は、PFsが時間差誤差を以前の状態に伝達する能力に起因している可能性がある。
また,空間ナビゲーションのPF学習に関わる生物学的メカニズムについても論じる。
本研究は、強化学習アルゴリズムを用いた計算神経科学の理論的研究に寄与し、ロボット工学、ゲームAI、自律走行車ナビゲーションにおけるPFの実用可能性を強調した。
関連論文リスト
- Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。
この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文 参考訳(メタデータ) (2022-12-29T15:10:59Z) - Opportunistic Episodic Reinforcement Learning [9.364712393700056]
機会論的強化学習(英: opportunistic reinforcement learning)は、変分因子として知られる外部環境条件下で、最適な行動を選択することの後悔が変化する強化学習の新たな変種である。
我々の直感は、変動係数が高いときにさらに活用し、変動係数が低いときにさらに探索することである。
我々のアルゴリズムは、探索をガイドするために変動係数に依存した楽観性を導入することで、強化学習のための探索・探索トレードオフのバランスをとる。
論文 参考訳(メタデータ) (2022-10-24T18:02:33Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - On the Theoretical Properties of Noise Correlation in Stochastic
Optimization [6.970991851511823]
PGDとアンチPGDに比較して,fPGDは探索能力を有することを示す。
これらの結果は、機械学習モデルにノイズを利用する新しい方法へとフィールドを開放する。
論文 参考訳(メタデータ) (2022-09-19T16:32:22Z) - Benchmarking Deep Reinforcement Learning Algorithms for Vision-based
Robotics [11.225021326001778]
本稿では,2つの視覚に基づくロボット工学問題の解法として,最先端の強化学習アルゴリズムのベンチマーク研究を行う。
これらのアルゴリズムの性能は、PyBulletの2つのシミュレーション環境であるKukaDiverseObjectEnvとRacecarZEDGymEnvと比較される。
論文 参考訳(メタデータ) (2022-01-11T22:45:25Z) - A SAR speckle filter based on Residual Convolutional Neural Networks [68.8204255655161]
本研究では,Convolutional Neural Networks(CNN)に基づく深層学習(DL)アルゴリズムを用いて,Sentinel-1データからスペックルノイズをフィルタリングする新しい手法を提案する。
得られた結果は、技術の現状と比較すると、ピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)の点で明確な改善を示しています。
論文 参考訳(メタデータ) (2021-04-19T14:43:07Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Generating Human-Like Movement: A Comparison Between Two Approaches
Based on Environmental Features [4.511923587827301]
環境特性に基づいて人間のような軌道を生成するための2つの新しいアルゴリズムが提示されている。
人間の類似性は、最終生成軌道を現実的なものと判断する人間の専門家によってテストされている。
予め定義した基準により,実際の軌道に近い軌道を生成するにもかかわらず,特徴ベースA*アルゴリズムは,アトラクションベースA*アルゴリズムと比較して時間効率が低いことを示す。
論文 参考訳(メタデータ) (2020-12-11T16:45:32Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。