Fugu-MT 論文翻訳(概要): Robust Decision-Making in Spatial Learning: A Comparative Study of Successor Features and Predecessor Features Algorithms

論文の概要: Robust Decision-Making in Spatial Learning: A Comparative Study of Successor Features and Predecessor Features Algorithms

arxiv url: http://arxiv.org/abs/2304.06894v1
Date: Fri, 14 Apr 2023 02:06:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-17 14:50:49.681496
Title: Robust Decision-Making in Spatial Learning: A Comparative Study of Successor Features and Predecessor Features Algorithms
Title（参考訳）: 空間学習におけるロバスト決定--継承的特徴と先行的特徴のアルゴリズムの比較
Authors: Hyunsu Lee
Abstract要約: ノイズのある1次元迷路環境下での逐次特徴量(SF)と事前特徴量(PF)のアルゴリズムの性能を比較した。 PFsは、累積報酬と平均ステップ長で連続的にSFより優れ、ノイズに対する反発性が高かった。本研究は、強化学習アルゴリズムを用いた計算神経科学の理論的研究に寄与し、ロボット工学、ゲームAI、自律走行車ナビゲーションにおけるPFの実用可能性を強調した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Predictive map theory, one of the theories explaining spatial learning in animals, is based on successor representation (SR) learning algorithms. In the real world, agents such as animals and robots are subjected to noisy observations, which can lead to suboptimal actions or even failure during learning. In this study, we compared the performance of Successor Features (SFs) and Predecessor Features (PFs) algorithms in a noisy one-dimensional maze environment. Our results demonstrated that PFs consistently outperformed SFs in terms of cumulative reward and average step length, with higher resilience to noise. This superiority could be due to PFs' ability to transmit temporal difference errors to more preceding states. We also discuss the biological mechanisms involved in PFs learning for spatial navigation. This study contributes to the theoretical research on computational neuroscience using reinforcement learning algorithms, and highlights the practical potential of PFs in robotics, game AI, and autonomous vehicle navigation.
Abstract（参考訳）: 動物における空間学習を説明する理論の一つである予測地図理論は、後継表現(SR)学習アルゴリズムに基づいている。現実の世界では、動物やロボットのようなエージェントは騒々しい観察を受けており、学習中に最適な行動や失敗につながる可能性がある。本研究では,ノイズの多い1次元迷路環境下での継承特徴(SF)と先行特徴(PF)のアルゴリズムの性能を比較した。以上の結果から,PFsは累積報酬と平均ステップ長で連続的にSFより優れ,ノイズに対する耐性が高かった。この優位性は、PFsが時間差誤差を以前の状態に伝達する能力に起因している可能性がある。また,空間ナビゲーションのPF学習に関わる生物学的メカニズムについても論じる。本研究は、強化学習アルゴリズムを用いた計算神経科学の理論的研究に寄与し、ロボット工学、ゲームAI、自律走行車ナビゲーションにおけるPFの実用可能性を強調した。

関連論文リスト

Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics [8.820825533010543]
本稿では,時間差に基づく強化学習の新たな視点について述べる。状態遷移のトポロジカル空間におけるTD誤差は1-cochainとみなすことができ、マルコフ力学はトポロジカル可積分性と解釈される。この新しい視点は、Hodge型TD誤差を可積分成分と位相的残差に分解することを可能にする。
論文参考訳（メタデータ） (2026-02-06T18:35:41Z)
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文参考訳（メタデータ） (2025-09-03T18:52:49Z)
Automated Algorithmic Discovery for Gravitational-Wave Detection Guided by LLM-Informed Evolutionary Monte Carlo Tree Search [8.633654445285892]
本稿では,大規模言語モデル(LLM)ガイダンスとドメイン認識の物理的制約を統合して,重力波の自動検出を提案する。 MLGWSC-1ベンチマークデータセット上で,最先端の重力波検出アルゴリズムの性能向上を示す。本フレームワークは,計算科学領域にまたがる自動アルゴリズム発見のための伝達可能な手法を確立する。
論文参考訳（メタデータ） (2025-08-05T17:18:20Z)
Noise-based reward-modulated learning [1.0851051226732167]
雑音に基づく報酬変調学習は、新しいシナプス的可塑性規則である。 NRLはバックプロパゲーションを用いて最適化されたベースラインに匹敵する性能を示す。その結果,低消費電力適応システムにおける雑音駆動型脳誘発学習の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-03-31T11:35:23Z)
Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning [10.117626902557927]
Dyna-style off-policy model-based reinforcement learning (DMBRL)アルゴリズムは、合成状態遷移データを生成するための一連の技術である。本稿では,異なるベンチマーク環境におけるDMBRLアルゴリズムの適用時に観測された驚くべき性能差を同定し,検討する。
論文参考訳（メタデータ） (2024-12-18T20:25:04Z)
Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文参考訳（メタデータ） (2024-10-23T14:22:49Z)
Enhancing PAC Learning of Half spaces Through Robust Optimization Techniques [0.0]
PACは、一定の悪意のある雑音下でハーフスペースを学習し、トレーニングデータのごく一部が逆向きに破損する。半宇宙学習における雑音耐性を考慮に入れた理論的枠組みを拡張した,新しい効率的なアルゴリズムを提案する。本稿では,従来の最先端手法と比較して,悪質な雑音に対して優れた頑健性を示すアルゴリズムの性能を包括的に分析する。
論文参考訳（メタデータ） (2024-10-21T23:08:17Z)
Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文参考訳（メタデータ） (2023-10-29T06:12:43Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文参考訳（メタデータ） (2022-12-29T15:10:59Z)
Walking Noise: On Layer-Specific Robustness of Neural Architectures against Noisy Computations and Associated Characteristic Learning Dynamics [1.5184189132709105]
本稿では,異なる分類タスクとモデルアーキテクチャに対する加法的,乗法的,混合ノイズの影響について論じる。本研究では,ロバスト性を測定するため,層固有のノイズを注入するウォーキングノイズ法を提案する。我々は,この方法論の実践的利用に関する議論をまとめ,ノイズの多い環境での適応型マルチエグゼクティブの活用について論じる。
論文参考訳（メタデータ） (2022-12-20T17:09:08Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
On the Theoretical Properties of Noise Correlation in Stochastic Optimization [6.970991851511823]
PGDとアンチPGDに比較して,fPGDは探索能力を有することを示す。これらの結果は、機械学習モデルにノイズを利用する新しい方法へとフィールドを開放する。
論文参考訳（メタデータ） (2022-09-19T16:32:22Z)
A SAR speckle filter based on Residual Convolutional Neural Networks [68.8204255655161]
本研究では,Convolutional Neural Networks(CNN)に基づく深層学習(DL)アルゴリズムを用いて,Sentinel-1データからスペックルノイズをフィルタリングする新しい手法を提案する。得られた結果は、技術の現状と比較すると、ピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)の点で明確な改善を示しています。
論文参考訳（メタデータ） (2021-04-19T14:43:07Z)
Phase Retrieval using Expectation Consistent Signal Recovery Algorithm based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文参考訳（メタデータ） (2021-01-12T08:36:23Z)
Generating Human-Like Movement: A Comparison Between Two Approaches Based on Environmental Features [4.511923587827301]
環境特性に基づいて人間のような軌道を生成するための2つの新しいアルゴリズムが提示されている。人間の類似性は、最終生成軌道を現実的なものと判断する人間の専門家によってテストされている。予め定義した基準により,実際の軌道に近い軌道を生成するにもかかわらず,特徴ベースA*アルゴリズムは,アトラクションベースA*アルゴリズムと比較して時間効率が低いことを示す。
論文参考訳（メタデータ） (2020-12-11T16:45:32Z)
Rectified Linear Postsynaptic Potential Function for Backpropagation in Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文参考訳（メタデータ） (2020-03-26T11:13:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。