論文の概要: Learning Principle of Least Action with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.11891v2
- Date: Thu, 26 Nov 2020 08:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:13:38.417377
- Title: Learning Principle of Least Action with Reinforcement Learning
- Title(参考訳): 強化学習によるラストアクションの学習原理
- Authors: Zehao Jin, Joshua Yao-Yu Lin, Siao-Fong Li
- Abstract要約: 古典力学において、自然は、作用 $mathcalS$ と呼ばれるラグランジアン積分に従って経路に沿って移動する対象を好む。
我々は,報酬/報酬を$mathcalS$の関数として設定することを検討する。これにより,エージェントは各種環境における粒子の物理的軌跡を,強化学習を用いて学習することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nature provides a way to understand physics with reinforcement learning since
nature favors the economical way for an object to propagate. In the case of
classical mechanics, nature favors the object to move along the path according
to the integral of the Lagrangian, called the action $\mathcal{S}$. We consider
setting the reward/penalty as a function of $\mathcal{S}$, so the agent could
learn the physical trajectory of particles in various kinds of environments
with reinforcement learning. In this work, we verified the idea by using a
Q-Learning based algorithm on learning how light propagates in materials with
different refraction indices, and show that the agent could recover the
minimal-time path equivalent to the solution obtained by Snell's law or
Fermat's Principle. We also discuss the similarity of our reinforcement
learning approach to the path integral formalism.
- Abstract(参考訳): 自然は、物体が伝播する経済的方法を好むため、強化学習によって物理学を理解する手段を提供する。
古典力学の場合には、自然は、作用 $\mathcal{s}$ と呼ばれるラグランジアンの積分に従って、経路に沿って移動する対象を好む。
報酬/報酬を$\mathcal{S}$の関数として設定することを考えると、エージェントは強化学習によって様々な環境における粒子の物理的軌道を学習することができる。
本研究では,屈折率の異なる材料に光がどのように伝播するかを学習し,q-ラーニングに基づくアルゴリズムを用いて,スネルの法則やフェルマーの原理で得られた解と同等の最小時間経路を回復できることを検証した。
また,経路積分形式に対する強化学習アプローチの類似性についても論じる。
関連論文リスト
- DimOL: Dimensional Awareness as A New 'Dimension' in Operator Learning [63.5925701087252]
本稿では,DimOL(Dimension-aware Operator Learning)を紹介し,次元解析から洞察を得る。
DimOLを実装するために,FNOおよびTransformerベースのPDEソルバにシームレスに統合可能なProdLayerを提案する。
経験的に、DimOLモデルはPDEデータセット内で最大48%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2024-10-08T10:48:50Z) - Physics-Guided Actor-Critic Reinforcement Learning for Swimming in Turbulence [0.402817967099747]
乱流拡散は粒子を分離に近接させる。
本研究では,物理インフォームド強化学習戦略を新たに開発し,所定の制御と物理に依存しない強化学習戦略と比較する。
合成BKおよびより現実的なアーノルド・ベルトラミ・チルドレス流環境における広範な数値実験により,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-05T18:06:57Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Loss Dynamics of Temporal Difference Reinforcement Learning [36.772501199987076]
線形関数近似器を用いた値関数の時間差学習のためのケースラーニング曲線について検討した。
本研究では,学習力学と台地が特徴構造,学習率,割引係数,報酬関数にどのように依存するかを検討する。
論文 参考訳(メタデータ) (2023-07-10T18:17:50Z) - Statistical mechanics of continual learning: variational principle and
mean-field potential [1.559929646151698]
重み付き単層および多層ニューラルネットワークにおける連続学習に着目する。
ニューラルネットワークをフィールド空間でトレーニングする,変分ベイズ学習環境を提案する。
重みの不確実性は自然に組み込まれ、タスク間のシナプス資源を調節する。
提案するフレームワークは、弾力的な重みの強化、重みの不確実性学習、神経科学によるメタ可塑性にも結びついている。
論文 参考訳(メタデータ) (2022-12-06T09:32:45Z) - A new method for directly computing reduced density matrices [0.0]
オープン量子系の減密度行列要素の摂動計算を可能にする第1原理に基づく実用的手法のパワーを実証する。
このアプローチは、熱場力学、シュウィンガー・ケルドシーの公式主義、ファインマン・ヴァーノンの影響関数のような非平衡量子場理論の技法に基づいている。
論文 参考訳(メタデータ) (2022-04-19T11:58:36Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Path Integrals: From Quantum Mechanics to Photonics [0.0]
量子力学の経路積分の定式化は、おそらく理論物理学で開発された最もエレガントで普遍的な枠組みである。
光学・フォトニクスにおける経路積分の利用に焦点をあて、過去にどのように利用されてきたのかを詳細に議論し、いくつかの問題にアプローチする。
論文 参考訳(メタデータ) (2021-05-03T15:31:28Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。