Fugu-MT 論文翻訳(概要): Locality Sensitive Sparse Encoding for Learning World Models Online

論文の概要: Locality Sensitive Sparse Encoding for Learning World Models Online

arxiv url: http://arxiv.org/abs/2401.13034v3
Date: Mon, 8 Apr 2024 06:05:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 01:26:28.376851
Title: Locality Sensitive Sparse Encoding for Learning World Models Online
Title（参考訳）: オンライン世界モデル学習のための局所感性スパース符号化
Authors: Zichen Liu, Chao Du, Wee Sun Lee, Min Lin,
Abstract要約: Follow-The-Leader世界モデルはモデルに基づく強化学習に望ましい。 FTLモデルは、FTLを達成するために、すべての相互作用ステップで蓄積されたデータを再学習する必要がある。我々の世界モデルは、リプレイで訓練されたディープワールドモデルの性能に匹敵するか、適合するかのどちらかで、1パスの軌跡データを使ってオンラインで学習した。
参考スコア（独自算出の注目度）: 29.124825481348285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Acquiring an accurate world model online for model-based reinforcement learning (MBRL) is challenging due to data nonstationarity, which typically causes catastrophic forgetting for neural networks (NNs). From the online learning perspective, a Follow-The-Leader (FTL) world model is desirable, which optimally fits all previous experiences at each round. Unfortunately, NN-based models need re-training on all accumulated data at every interaction step to achieve FTL, which is computationally expensive for lifelong agents. In this paper, we revisit models that can achieve FTL with incremental updates. Specifically, our world model is a linear regression model supported by nonlinear random features. The linear part ensures efficient FTL update while the nonlinear random feature empowers the fitting of complex environments. To best trade off model capacity and computation efficiency, we introduce a locality sensitive sparse encoding, which allows us to conduct efficient sparse updates even with very high dimensional nonlinear features. We validate the representation power of our encoding and verify that it allows efficient online learning under data covariate shift. We also show, in the Dyna MBRL setting, that our world models learned online using a single pass of trajectory data either surpass or match the performance of deep world models trained with replay and other continual learning methods.
Abstract（参考訳）: モデルベース強化学習(MBRL)のためにオンラインで正確な世界モデルを取得することは、データ非定常性のため困難である。オンライン学習の観点からは、FTL(Follow-The-Leader)の世界モデルが望ましい。残念なことに、NNベースのモデルは、生涯にわたるエージェントにとって計算コストのかかるFTLを達成するために、すべてのインタラクションステップで蓄積されたデータを再トレーニングする必要がある。本稿では,FTLをインクリメンタルアップデートで実現可能なモデルを再検討する。特に、我々の世界モデルは非線形ランダムな特徴によって支持される線形回帰モデルである。線形部分は効率的なFTL更新を保証し、非線形ランダム特徴は複雑な環境の整合性を高める。モデルキャパシティと計算効率を最大限に両立させるため,高次元の非線形特徴を伴っても効率的なスパース更新を行うことのできる局所性敏感なスパース符号化を導入する。符号化の表現力を検証し、データ共変量シフトの下で効率的なオンライン学習を可能にすることを検証する。また、Dyna MBRL設定では、我々の世界モデルは、リプレイやその他の連続学習手法で訓練された深層世界のモデルの性能に匹敵するか、あるいは一致した1パスの軌跡データを用いてオンラインに学習したことを示す。

関連論文リスト

Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals [49.17123504516502]
大規模言語モデル(LLM)のためのRFTパラダイムは、均一なデータサンプリングの下で同じクエリが冗長に露出するため、効率が悪い。グラディエント駆動型アングルインフォームドナビゲーションRLフレームワークを提案する。モデル固有の角度集中信号を利用することで、GAIN-RLは各エポックにおけるトレーニングデータを動的に選択し、一貫したインパクトのある勾配更新を確実にする。
論文参考訳（メタデータ） (2025-06-02T21:40:38Z)
Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文参考訳（メタデータ） (2025-02-27T15:05:25Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文参考訳（メタデータ） (2024-10-01T10:25:03Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Offline Trajectory Optimization for Offline Reinforcement Learning [42.306438854850434]
オフライン強化学習はオンライン調査なしで政策を学ぶことを目的としていますオフラインRLのための既存のデータ拡張手法は、(i)短期水平シミュレーションによる自明な改善に悩まされている。オフライン強化学習(OTTO)のためのオフライン軌道最適化を提案する。
論文参考訳（メタデータ） (2024-04-16T08:48:46Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文参考訳（メタデータ） (2023-10-24T17:46:12Z)
Diffusion-Model-Assisted Supervised Learning of Generative Models for Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。スコアベース拡散モデルを用いてラベル付きデータを生成する。ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文参考訳（メタデータ） (2023-10-22T23:56:19Z)
Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-28T12:02:27Z)
Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。 LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文参考訳（メタデータ） (2023-03-18T16:45:54Z)
Online Evolutionary Neural Architecture Search for Multivariate Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。 ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文参考訳（メタデータ） (2023-02-20T22:25:47Z)
Rank-R FNN: A Tensor-Based Learning Model for High-Order Data Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。 Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文参考訳（メタデータ） (2021-04-11T16:37:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。