Fugu-MT 論文翻訳(概要): Multi-timestep models for Model-based Reinforcement Learning

論文の概要: Multi-timestep models for Model-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.05672v2
Date: Wed, 11 Oct 2023 08:37:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 11:26:50.550045
Title: Multi-timestep models for Model-based Reinforcement Learning
Title（参考訳）: モデルベース強化学習のためのマルチタイムステップモデル
Authors: Abdelhakim Benechehab, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Bal\'azs K\'egl
Abstract要約: モデルベース強化学習(MBRL)では、ほとんどのアルゴリズムはデータに基づいて学習した1ステップのダイナミックスモデルからの軌道のシミュレーションに依存している。我々は、マルチステップの目標を用いてワンステップモデルをトレーニングすることでこの問題に対処する。指数関数的に減衰する重みは、長い水平R2スコアを著しく改善するモデルに繋がることがわかった。
参考スコア（独自算出の注目度）: 10.940666275830052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In model-based reinforcement learning (MBRL), most algorithms rely on simulating trajectories from one-step dynamics models learned on data. A critical challenge of this approach is the compounding of one-step prediction errors as length of the trajectory grows. In this paper we tackle this issue by using a multi-timestep objective to train one-step models. Our objective is a weighted sum of a loss function (e.g., negative log-likelihood) at various future horizons. We explore and test a range of weights profiles. We find that exponentially decaying weights lead to models that significantly improve the long-horizon R2 score. This improvement is particularly noticeable when the models were evaluated on noisy data. Finally, using a soft actor-critic (SAC) agent in pure batch reinforcement learning (RL) and iterated batch RL scenarios, we found that our multi-timestep models outperform or match standard one-step models. This was especially evident in a noisy variant of the considered environment, highlighting the potential of our approach in real-world applications.
Abstract（参考訳）: モデルベース強化学習(mbrl)では、ほとんどのアルゴリズムはデータに基づいて学習されたワンステップダイナミクスモデルからの軌道をシミュレートする。このアプローチの批判的な課題は、軌道の長さが大きくなるにつれて1ステップの予測誤差を複合することである。本稿では,マルチタイムステップの目標を用いて,ワンステップモデルのトレーニングを行う。我々の目標は、様々な将来の地平線における損失関数(例えば負の対に似た)の重み付き和である。私たちは様々な重みのプロファイルを探索し、テストします。指数関数的に減衰する重みは、長い水平R2スコアを大幅に改善するモデルにつながる。この改善は、モデルがノイズデータで評価された場合に特に顕著である。最後に,ソフトアクター・クリティカル(SAC)エージェントを純粋バッチ強化学習(RL)および反復バッチRLシナリオに使用することにより,我々のマルチステップモデルが標準ワンステップモデルより優れ,あるいは適合していることを発見した。これは特に、実世界のアプリケーションにおける我々のアプローチの可能性を強調した、考慮された環境のノイズのあるバリエーションで明らかだった。

関連論文リスト

Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
A Multi-step Loss Function for Robust Learning of the Dynamics in Model-based Reinforcement Learning [10.940666275830052]
モデルに基づく強化学習では、ほとんどのアルゴリズムはデータに基づいて学習したダイナミクスの一段階モデルからの軌道のシミュレーションに依存している。我々は、多段階の目標を用いてワンステップモデルを訓練することでこの問題に対処する。この新たな損失は、データが騒々しいときに特に有効であることが分かっています。
論文参考訳（メタデータ） (2024-02-05T16:13:00Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。 VaGraMは価値認識モデル学習の新しい手法である。
論文参考訳（メタデータ） (2022-04-04T13:28:31Z)
Model-based micro-data reinforcement learning: what are the crucial model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文参考訳（メタデータ） (2021-07-24T11:38:25Z)
Anomaly Detection of Time Series with Smoothness-Inducing Sequential Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文参考訳（メタデータ） (2021-02-02T06:15:15Z)
Reinforcement Learning based dynamic weighing of Ensemble Models for Time Series Forecasting [0.8399688944263843]
データモデリングのために選択されたモデルが(線形/非線形、静的/動的)異なるモデルと独立(最小相関)モデルである場合、予測の精度が向上することが知られている。アンサンブルモデルを重み付けするために文献で提案された様々なアプローチは、静的な重みセットを使用する。この問題に対処するため、Reinforcement Learning (RL)アプローチでは、各モデルの重み付けを異なるタイミングで動的に割り当て、更新する。
論文参考訳（メタデータ） (2020-08-20T10:40:42Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。