論文の概要: A study of first-passage time minimization via Q-learning in heated
gridworlds
- arxiv url: http://arxiv.org/abs/2110.02129v1
- Date: Tue, 5 Oct 2021 16:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:17:12.897714
- Title: A study of first-passage time minimization via Q-learning in heated
gridworlds
- Title(参考訳): 熱グリッドワールドにおけるqラーニングによる初歩時間最小化に関する研究
- Authors: M.A. Larchenko, P. Osinenko, G. Yaremenko, V.V. Palyulin
- Abstract要約: 学習エージェントは, 温度分布が不均一な1次元および2次元のグリッドワールドにおいて, どのように振舞うかを検討する。
時間差に基づく強化学習法の特徴とバイアスは,実世界の物理応用やエージェント設計において考慮すべきである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization of first-passage times is required in applications ranging from
nanobots navigation to market trading. In such settings, one often encounters
unevenly distributed noise levels across the environment. We extensively study
how a learning agent fares in 1- and 2- dimensional heated gridworlds with an
uneven temperature distribution. The results show certain bias effects in
agents trained via simple tabular Q-learning, SARSA, Expected SARSA and Double
Q-learning. While high learning rate prevents exploration of regions with
higher temperature, low enough rate increases the presence of agents in such
regions. The discovered peculiarities and biases of temporal-difference-based
reinforcement learning methods should be taken into account in real-world
physical applications and agent design.
- Abstract(参考訳): ナノボットのナビゲーションから市場取引まで、アプリケーションではファーストパスタイムの最適化が求められる。
このような環境では、環境全体に均等に分布するノイズレベルに遭遇することが多い。
本研究では, 学習エージェントが, 温度分布が不均一な1次元および2次元のグリッドワールドにおいて, どのように振舞うかを広く研究する。
その結果,単純な表型q-learning,sarsa,期待sarsa,ダブルq-learningを用いて訓練したエージェントのバイアス効果が示された。
高い学習速度は、高温領域の探索を妨げるが、そのような領域におけるエージェントの存在を十分に増大させる。
時間差に基づく強化学習法の特徴とバイアスは,実世界の物理応用やエージェント設計において考慮すべきである。
関連論文リスト
- Online Statistical Inference for Time-varying Sample-averaged Q-learning [2.2374171443798034]
本稿では,バッチ平均Qラーニングの時間変化を,サンプル平均Qラーニングと呼ぶ。
本研究では, サンプル平均化アルゴリズムの正規性について, 温和な条件下での洞察を提供する新しい枠組みを開発する。
古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニングの時間変化は、シングルサンプルQ-ラーニングと定数バッチQ-ラーニングのどちらよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-14T17:17:19Z) - Causal Representation Learning in Temporal Data via Single-Parent Decoding [66.34294989334728]
科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。
科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。
そこで本研究では,単一親の復号化による因果発見法を提案し,その上で下位の潜伏者と因果グラフを同時に学習する。
論文 参考訳(メタデータ) (2024-10-09T15:57:50Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - Predicting the energetic proton flux with a machine learning regression algorithm [0.0]
最大1時間前に陽子束を予測できる機械学習回帰アルゴリズムを提案する。
このアプローチは、深宇宙と地球近傍の両方の環境における放射線リスクの監視システムを改善するのに役立つかもしれない。
論文 参考訳(メタデータ) (2024-06-18T15:54:50Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - Learning time-scales in two-layers neural networks [11.878594839685471]
高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文 参考訳(メタデータ) (2023-02-28T19:52:26Z) - ClimaX: A foundation model for weather and climate [51.208269971019504]
ClimaXは気象と気候科学のディープラーニングモデルである。
気候データセットの自己教師型学習目標で事前トレーニングすることができる。
気候や気候の様々な問題に対処するために、微調整が可能である。
論文 参考訳(メタデータ) (2023-01-24T23:19:01Z) - Building Autocorrelation-Aware Representations for Fine-Scale
Spatiotemporal Prediction [1.2862507359003323]
本稿では,空間統計理論をニューラルネットワークに組み込んだ新しいディープラーニングアーキテクチャを提案する。
DeepLATTEには、局所的自己相関パターンとグローバルな自己相関傾向の両方を強制する、自己相関誘導半教師付き学習戦略が含まれている。
我々は,DeepLATTEの公開データを用いた実演を行い,健康上の重要なトピックとして,高度に適合した複雑な物理環境下での空気質予測を行った。
論文 参考訳(メタデータ) (2021-12-10T03:21:19Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Statistical Downscaling of Temperature Distributions from the Synoptic
Scale to the Mesoscale Using Deep Convolutional Neural Networks [0.0]
有望な応用の1つは、低分解能ダイナミックモデルの出力画像を高分解能画像に変換する統計的代理モデルを開発することである。
本研究では,6時間毎に合成温度場をメソスケール温度場にダウンスケールする代理モデルについて検討した。
代理モデルが短時間で実施されれば、高解像度の天気予報ガイダンスや環境緊急警報を低コストで提供する。
論文 参考訳(メタデータ) (2020-07-20T06:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。