論文の概要: Online Reinforcement Learning with Passive Memory
- arxiv url: http://arxiv.org/abs/2410.14665v1
- Date: Fri, 18 Oct 2024 17:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:23.766721
- Title: Online Reinforcement Learning with Passive Memory
- Title(参考訳): パッシブメモリを用いたオンライン強化学習
- Authors: Anay Pattanaik, Lav R. Varshney,
- Abstract要約: 我々は、受動的メモリの使用により性能が向上し、最小限の最適化が得られた後悔に対する理論的保証が提供されることを示した。
その結果,受動的記憶の質が帰納的後悔の準最適性を決定することがわかった。
- 参考スコア(独自算出の注目度): 17.293733942245154
- License:
- Abstract: This paper considers an online reinforcement learning algorithm that leverages pre-collected data (passive memory) from the environment for online interaction. We show that using passive memory improves performance and further provide theoretical guarantees for regret that turns out to be near-minimax optimal. Results show that the quality of passive memory determines sub-optimality of the incurred regret. The proposed approach and results hold in both continuous and discrete state-action spaces.
- Abstract(参考訳): 本稿では,オンラインインタラクションのための環境から事前に収集したデータ(パッシブメモリ)を活用するオンライン強化学習アルゴリズムについて考察する。
我々は、受動的メモリの使用により性能が向上し、さらに、最小限の最適化が得られた後悔に対する理論的保証が提供されることを示した。
その結果,受動的記憶の質が帰納的後悔の準最適性を決定することがわかった。
提案されたアプローチと結果は、連続的および離散的な状態-作用空間の両方で成り立つ。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Revisiting Dynamic Evaluation: Online Adaptation for Large Language
Models [88.47454470043552]
我々は、動的評価(動的評価)としても知られる、テスト時の言語モデルのパラメータをオンラインで微調整する問題を考察する。
オンライン適応はパラメータを時間的に変化する状態に変換し、メモリを重み付けしたコンテキスト長拡張の形式を提供する。
論文 参考訳(メタデータ) (2024-03-03T14:03:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - EMO: Episodic Memory Optimization for Few-Shot Meta-Learning [69.50380510879697]
メタ学習のためのエピソード記憶最適化は、EMOと呼ばれ、脳の記憶から過去の学習経験を思い出す人間の能力にインスパイアされている。
EMOは、限られた数の例によって提供される勾配が非形式的である場合でも、パラメータを正しい方向に更新する。
EMOは、ほとんど数ショットの分類ベンチマークでうまくスケールし、最適化ベースのメタラーニング手法の性能を改善している。
論文 参考訳(メタデータ) (2023-06-08T13:39:08Z) - Pin the Memory: Learning to Generalize Semantic Segmentation [68.367763672095]
本稿ではメタラーニングフレームワークに基づくセマンティックセグメンテーションのための新しいメモリ誘導ドメイン一般化手法を提案する。
本手法は,セマンティッククラスの概念的知識を,ドメインを超えて一定であるカテゴリ記憶に抽象化する。
論文 参考訳(メタデータ) (2022-04-07T17:34:01Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - Schematic Memory Persistence and Transience for Efficient and Robust
Continual Learning [8.030924531643532]
継続学習は、次世代人工知能(AI)に向けた有望なステップであると考えられている
まだ非常に原始的であり、既存の作品は主に(破滅的な)忘れの回避に焦点が当てられている。
神経科学の最近の進歩を踏まえた,外部記憶を用いた連続学習のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-05-05T14:32:47Z) - Re Learning Memory Guided Normality for Anomaly Detection [0.0]
筆者らは、これがネットワークがパターンを学習するのに役立つと主張している。
原型記憶項目のt-SNEプロットの助けを借りて有効性を検証する。
論文 参考訳(メタデータ) (2021-01-29T03:28:57Z) - Online Class-Incremental Continual Learning with Adversarial Shapley
Value [28.921534209869105]
本稿では、モデルがオンラインデータストリームから新しいクラスを継続的に学習する必要があるオンラインクラス増分設定に焦点を当てる。
そこで本研究では,遅延決定境界を保存する能力に基づいて,メモリデータサンプルをスコアリングする,新たなアディバーショナルシェープ値スコアリング手法を提案する。
全体として,提案手法は,様々なデータセット上での最先端のリプレイベース連続学習法と比較して,競争力や性能の向上を図っている。
論文 参考訳(メタデータ) (2020-08-31T20:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。