論文の概要: Analysis of Stochastic Processes through Replay Buffers
- arxiv url: http://arxiv.org/abs/2206.12848v1
- Date: Sun, 26 Jun 2022 11:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:58:25.527596
- Title: Analysis of Stochastic Processes through Replay Buffers
- Title(参考訳): リプレイバッファによる確率過程の解析
- Authors: Shirli Di Castro Shashua, Shie Mannor, Dotan Di-Castro
- Abstract要約: 本稿では,プロセスXをリプレイバッファにプッシュし,そのリプレイバッファからプロセスYをランダムに生成するシステムを分析する。
我々の理論的分析は、リプレイバッファが良いデコレータとなる理由について光を当てている。
- 参考スコア(独自算出の注目度): 50.52781475688759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Replay buffers are a key component in many reinforcement learning schemes.
Yet, their theoretical properties are not fully understood. In this paper we
analyze a system where a stochastic process X is pushed into a replay buffer
and then randomly sampled to generate a stochastic process Y from the replay
buffer. We provide an analysis of the properties of the sampled process such as
stationarity, Markovity and autocorrelation in terms of the properties of the
original process. Our theoretical analysis sheds light on why replay buffer may
be a good de-correlator. Our analysis provides theoretical tools for proving
the convergence of replay buffer based algorithms which are prevalent in
reinforcement learning schemes.
- Abstract(参考訳): リプレイバッファは多くの強化学習スキームにおいて重要な要素である。
しかし、その理論的な性質は完全には解明されていない。
本稿では,確率過程xをリプレイバッファにプッシュしてランダムにサンプリングし,リプレイバッファから確率過程yを生成するシステムの解析を行う。
そこで本研究では, 定常性, マルコフ性, 自己相関などの試料化過程の特性を, 元の過程の性質の観点から解析する。
理論解析の結果,リプレイバッファがよいデコレータである理由が明らかになった。
我々の分析は、強化学習方式で一般的なリプレイバッファベースのアルゴリズムの収束を証明する理論的ツールを提供する。
関連論文リスト
- Logistic-beta processes for dependent random probabilities with beta marginals [58.91121576998588]
本稿では,ロジスティック・ベータプロセスと呼ばれる新しいプロセスを提案する。
空間や時間などの離散領域と連続領域の両方への依存をモデル化でき、相関カーネルを通じて柔軟な依存構造を持つ。
本研究は,非パラメトリック二分回帰と条件密度推定の例による効果をシミュレーション研究と妊娠結果応用の両方で説明する。
論文 参考訳(メタデータ) (2024-02-10T21:41:32Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Class-Wise Buffer Management for Incremental Object Detection: An
Effective Buffer Training Strategy [11.109975137910881]
クラスインクリメンタル学習は、既存のモデルに目に見えないクラスインスタンスを継続的に追加する際に発生する問題を解決することを目的としている。
オブジェクト検出に最適化されたリプレイバッファを生成する効果的なバッファトレーニング戦略(eBTS)を導入する。
論文 参考訳(メタデータ) (2023-12-14T17:10:09Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Large Batch Experience Replay [22.473676537463607]
優先体験リプレイの新たな理論的基礎を紹介する。
LaBERは、リプレイバッファをサンプリングする簡単で効率的な方法である。
論文 参考訳(メタデータ) (2021-10-04T15:53:13Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - Distilled Replay: Overcoming Forgetting through Synthetic Samples [11.240947363668242]
リプレイ戦略は、過去の経験からパターンのバッファを保持することで破滅的な忘れを緩和する継続的学習技術である。
この研究は、非常に小さなバッファを維持して忘れを緩和できる、連続学習のための新しいリプレイ戦略である蒸留リプレイを紹介している。
データセットからランダムにパターンを抽出したnaive replayに対する蒸留リプレイの有効性を,4つの一般的な連続学習ベンチマークで示す。
論文 参考訳(メタデータ) (2021-03-29T18:02:05Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。