論文の概要: A study of first-passage time minimization via Q-learning in heated
gridworlds
- arxiv url: http://arxiv.org/abs/2110.02129v1
- Date: Tue, 5 Oct 2021 16:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:17:12.897714
- Title: A study of first-passage time minimization via Q-learning in heated
gridworlds
- Title(参考訳): 熱グリッドワールドにおけるqラーニングによる初歩時間最小化に関する研究
- Authors: M.A. Larchenko, P. Osinenko, G. Yaremenko, V.V. Palyulin
- Abstract要約: 学習エージェントは, 温度分布が不均一な1次元および2次元のグリッドワールドにおいて, どのように振舞うかを検討する。
時間差に基づく強化学習法の特徴とバイアスは,実世界の物理応用やエージェント設計において考慮すべきである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization of first-passage times is required in applications ranging from
nanobots navigation to market trading. In such settings, one often encounters
unevenly distributed noise levels across the environment. We extensively study
how a learning agent fares in 1- and 2- dimensional heated gridworlds with an
uneven temperature distribution. The results show certain bias effects in
agents trained via simple tabular Q-learning, SARSA, Expected SARSA and Double
Q-learning. While high learning rate prevents exploration of regions with
higher temperature, low enough rate increases the presence of agents in such
regions. The discovered peculiarities and biases of temporal-difference-based
reinforcement learning methods should be taken into account in real-world
physical applications and agent design.
- Abstract(参考訳): ナノボットのナビゲーションから市場取引まで、アプリケーションではファーストパスタイムの最適化が求められる。
このような環境では、環境全体に均等に分布するノイズレベルに遭遇することが多い。
本研究では, 学習エージェントが, 温度分布が不均一な1次元および2次元のグリッドワールドにおいて, どのように振舞うかを広く研究する。
その結果,単純な表型q-learning,sarsa,期待sarsa,ダブルq-learningを用いて訓練したエージェントのバイアス効果が示された。
高い学習速度は、高温領域の探索を妨げるが、そのような領域におけるエージェントの存在を十分に増大させる。
時間差に基づく強化学習法の特徴とバイアスは,実世界の物理応用やエージェント設計において考慮すべきである。
関連論文リスト
- Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - Residual Diffusion Modeling for Km-scale Atmospheric Downscaling [51.061954281398116]
台湾上空2kmの高解像度気象モデルを用いて,コスト効率の低いダウンスケーリングモデルを訓練した。
textitCorrDiffは、RMSEとCRPSを巧みに表現し、極端な場合でもスペクトルと分布を忠実に回復する。
グローバルな予測のスケールダウンは、これらのメリットの多くを成功裏に維持し、マシンラーニングの天気予報のエンドツーエンドなグローバルなスケールの可能性を先導する。
論文 参考訳(メタデータ) (2023-09-24T19:57:22Z) - Learning time-scales in two-layers neural networks [8.77676564584501]
高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文 参考訳(メタデータ) (2023-02-28T19:52:26Z) - ClimaX: A foundation model for weather and climate [51.208269971019504]
ClimaXは気象と気候科学のディープラーニングモデルである。
気候データセットの自己教師型学習目標で事前トレーニングすることができる。
気候や気候の様々な問題に対処するために、微調整が可能である。
論文 参考訳(メタデータ) (2023-01-24T23:19:01Z) - Building Autocorrelation-Aware Representations for Fine-Scale
Spatiotemporal Prediction [1.2862507359003323]
本稿では,空間統計理論をニューラルネットワークに組み込んだ新しいディープラーニングアーキテクチャを提案する。
DeepLATTEには、局所的自己相関パターンとグローバルな自己相関傾向の両方を強制する、自己相関誘導半教師付き学習戦略が含まれている。
我々は,DeepLATTEの公開データを用いた実演を行い,健康上の重要なトピックとして,高度に適合した複雑な物理環境下での空気質予測を行った。
論文 参考訳(メタデータ) (2021-12-10T03:21:19Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Towards Representation Learning for Atmospheric Dynamics [6.274453963224799]
本研究では,大気力学に特化して設計された新しい自己教師型表現学習手法を提案する。
私たちのアプローチは、AtmoDistと呼ばれ、単純で補助的なタスクでニューラルネットワークをトレーニングします。
我々は、AtmoDistを用いて、GANに基づく渦性と発散の超解像の計量を定義することでこれを実証する。
論文 参考訳(メタデータ) (2021-09-19T07:43:30Z) - Feature Importance in a Deep Learning Climate Emulator [10.48891954541828]
本研究では,気候の深層学習(DL)エミュレータを「理解」するための特徴的重要手法として,ポストホックな局所的説明手法のクラスを用いた研究を行う。
本研究では,エンコーダネットデコーダアーキテクチャを用いて,海面温度(SST)の経年変化を1,6,9ヶ月のリードタイムで予測するマルチインプット・アウトプット変動エミュレータについて検討する。
論文 参考訳(メタデータ) (2021-08-27T13:36:42Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Statistical Downscaling of Temperature Distributions from the Synoptic
Scale to the Mesoscale Using Deep Convolutional Neural Networks [0.0]
有望な応用の1つは、低分解能ダイナミックモデルの出力画像を高分解能画像に変換する統計的代理モデルを開発することである。
本研究では,6時間毎に合成温度場をメソスケール温度場にダウンスケールする代理モデルについて検討した。
代理モデルが短時間で実施されれば、高解像度の天気予報ガイダンスや環境緊急警報を低コストで提供する。
論文 参考訳(メタデータ) (2020-07-20T06:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。