論文の概要: Integrating Lagrangian Neural Networks into the Dyna Framework for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.08468v1
- Date: Mon, 09 Mar 2026 15:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.222857
- Title: Integrating Lagrangian Neural Networks into the Dyna Framework for Reinforcement Learning
- Title(参考訳): 強化学習のためのDynaフレームワークへのラグランジアンニューラルネットワークの統合
- Authors: Shreya Das, Kundan Kumar, Muhammad Iqbal, Outi Savolainen, Dominik Baumann, Laura Ruotsalainen, Simo Särkkä,
- Abstract要約: モデルベース強化学習(MBRL)は、サンプル効率が高いが、学習力学の精度に依存する。
我々は、DynaベースのDynaLフレームワーク内でモデルをトレーニングするために、Lagrangian Neural Network(LNN)を使用している。
- 参考スコア(独自算出の注目度): 8.247175971954727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) is sample-efficient but depends on the accuracy of the learned dynamics, which are often modeled using black-box methods that do not adhere to physical laws. Those methods tend to produce inaccurate predictions when presented with data that differ from the original training set. In this work, we employ Lagrangian neural networks (LNNs), which enforce an underlying Lagrangian structure to train the model within a Dyna-based MBRL framework. Furthermore, we train the LNN using stochastic gradient-based and state-estimation-based optimizers to learn the network's weights. The state-estimation-based method converges faster than the stochastic gradient-based method during neural network training. Simulation results are provided to illustrate the effectiveness of the proposed LNN-based Dyna framework for MBRL.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、サンプル効率が高いが、学習力学の精度に依存し、しばしば物理法則に従わないブラックボックス法を用いてモデル化される。
これらの手法は、元のトレーニングセットとは異なるデータを提示した場合、不正確な予測を生成する傾向がある。
本研究では、DynaベースのMBRLフレームワーク内でモデルをトレーニングするために、基礎となるラグランジアン構造を強制するラグランジアンニューラルネットワーク(LNN)を用いる。
さらに、確率勾配に基づく最適化と状態推定に基づく最適化を用いてLNNを訓練し、ネットワークの重み付けを学習する。
状態推定に基づく手法は、ニューラルネットワークトレーニング中に確率的勾配に基づく手法よりも早く収束する。
MBRLのためのLNNベースのDynaフレームワークの有効性を示すシミュレーション結果を提供する。
関連論文リスト
- Enhanced Self-Distillation Framework for Efficient Spiking Neural Network Training [9.838333491904406]
Spiking Neural Networks (SNN) は、ニューロモルフィックハードウェア上でのエネルギー効率を示す。
本稿では, 自己蒸留フレームワークを改良し, レートベースバックプロパゲーションを併用する手法を提案する。
提案手法は,高性能SNNトレーニングを行ないながら,トレーニングの複雑さを低減する。
論文 参考訳(メタデータ) (2025-10-04T12:58:55Z) - Random Feature Spiking Neural Networks [0.6875312133832079]
機械学習(ML)モデルとしてのスパイキングニューラルネットワーク(SNN)は最近、多くの注目を集めている。
本稿では,SNNのエンドツーエンドトレーニングのための新しいデータ駆動,高速,高性能,解釈可能なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:18:40Z) - Bayesian Entropy Neural Networks for Physics-Aware Prediction [14.705526856205454]
本稿では,ベイズニューラルネットワーク(BNN)の予測に制約を加えるためのフレームワークであるBENNを紹介する。
ベンは予測値だけでなく、その微分や分散を制約し、より堅牢で信頼性の高いモデル出力を保証できる。
その結果、従来のBNNよりも大幅に改善され、現代の制約されたディープラーニング手法と比較して競争性能が向上した。
論文 参考訳(メタデータ) (2024-07-01T07:00:44Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Can we learn gradients by Hamiltonian Neural Networks? [68.8204255655161]
本稿では,勾配を学習するODEニューラルネットワークに基づくメタラーナを提案する。
提案手法は,LLUアクティベーションを最適化したMLMとMNISTデータセットにおいて,LSTMに基づくメタラーナーよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-31T18:35:10Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。