論文の概要: Momentum Boosted Episodic Memory for Improving Learning in Long-Tailed RL Environments
- arxiv url: http://arxiv.org/abs/2504.05840v1
- Date: Tue, 08 Apr 2025 09:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:03.589285
- Title: Momentum Boosted Episodic Memory for Improving Learning in Long-Tailed RL Environments
- Title(参考訳): 長期RL環境における学習改善のためのモーメントアップエピソード記憶
- Authors: Dolton Fernandes, Pramod Kaushik, Harsh Shukla, Bapi Raju Surampudi,
- Abstract要約: 従来の強化学習アルゴリズムは、データの分布が一様または概ね一様であると仮定する。
いくつかの経験は頻繁に遭遇し、残りの経験のほとんどは稀に発生し、結果として得られる分布はZipfianと呼ばれる。
補完学習システムの理論から着想を得て,Zipfian分布から学習するアーキテクチャを提案する。
提案したアーキテクチャはモジュール化されており、任意のRLアーキテクチャに組み込むことができ、従来のアーキテクチャよりも複数のZipfianタスクのパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 0.5918617516642835
- License:
- Abstract: Traditional Reinforcement Learning (RL) algorithms assume the distribution of the data to be uniform or mostly uniform. However, this is not the case with most real-world applications like autonomous driving or in nature where animals roam. Some experiences are encountered frequently, and most of the remaining experiences occur rarely; the resulting distribution is called Zipfian. Taking inspiration from the theory of complementary learning systems, an architecture for learning from Zipfian distributions is proposed where important long tail trajectories are discovered in an unsupervised manner. The proposal comprises an episodic memory buffer containing a prioritised memory module to ensure important rare trajectories are kept longer to address the Zipfian problem, which needs credit assignment to happen in a sample efficient manner. The experiences are then reinstated from episodic memory and given weighted importance forming the trajectory to be executed. Notably, the proposed architecture is modular, can be incorporated in any RL architecture and yields improved performance in multiple Zipfian tasks over traditional architectures. Our method outperforms IMPALA by a significant margin on all three tasks and all three evaluation metrics (Zipfian, Uniform, and Rare Accuracy) and also gives improvements on most Atari environments that are considered challenging
- Abstract(参考訳): 従来の強化学習(RL)アルゴリズムは、データの分布が一様か概ね一様であると仮定する。
しかし、自動運転車や動物が歩き回る自然など、現実世界のほとんどの応用には当てはまらない。
いくつかの経験は頻繁に遭遇し、残りの経験のほとんどは稀に発生し、結果として得られる分布はZipfianと呼ばれる。
相補的な学習システムの理論から着想を得たZipfian分布から学習するアーキテクチャが提案され、重要な長い尾の軌跡が教師なしの方法で発見される。
本提案は、重要な希少な軌跡を長く保ってZipfian問題に対処するために、優先メモリモジュールを含むエピソードメモリバッファを含む。
その後、経験はエピソード記憶から復帰し、実行すべき軌跡を形成する重み付けされた重要性を与えられる。
提案したアーキテクチャはモジュール化されており、任意のRLアーキテクチャに組み込むことができ、従来のアーキテクチャよりも複数のZipfianタスクのパフォーマンスが向上する。
我々の手法はIMPALAを3つのタスクと3つの評価指標(Zipfian、Uniform、Rareの精度)に有意な差で上回り、また困難と考えられるほとんどのアタリ環境にも改善をもたらす。
関連論文リスト
- Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-tuning [37.507489928116804]
大規模言語モデル(LLM)は様々なタスクにまたがるが、標準的な一階述語(FO)の微調整にはかなりのメモリを必要とする。
本稿では,FOおよびZO最適化の異なる更新パターンを明らかにするレイヤワイズ分散分析を提案する。
我々はtextbfDivergence-driven textbfZeroth-textbfOrder (textbfDiZO) の最適化を提案する。
論文 参考訳(メタデータ) (2025-02-05T16:03:17Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Zipfian environments for Reinforcement Learning [19.309119596790563]
シュキュード体験からしっかり学習することは、シミュレーションや研究室を超えてDeep RL手法を適用する上で重要な課題であることを示す。
エージェントの経験がZipfian(離散電力法則)分布によって異なる3つの相補的なRL環境を開発する。
この結果から, シュキュード・エクスペリエンスからの学習が, シミュレーションや実験室を超えて深部RL法を適用する上で重要な課題であることが示唆された。
論文 参考訳(メタデータ) (2022-03-15T19:59:10Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Overcoming Catastrophic Forgetting via Direction-Constrained
Optimization [43.53836230865248]
連続的な学習フレームワークにおいて,分類ネットワークの固定アーキテクチャを用いてディープラーニングモデルを学習するための最適化アルゴリズムの新たな設計について検討する。
本稿では,方向制約付き最適化(DCO)法について述べる。各タスクに対して,対応する最上向きの主方向を近似する線形オートエンコーダを導入する。
我々のアルゴリズムは、他の最先端の正規化に基づく連続学習法と比較して好適に機能することを示した。
論文 参考訳(メタデータ) (2020-11-25T08:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。