論文の概要: Novelty-based Sample Reuse for Continuous Robotics Control
- arxiv url: http://arxiv.org/abs/2410.13490v1
- Date: Thu, 17 Oct 2024 12:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:14.047887
- Title: Novelty-based Sample Reuse for Continuous Robotics Control
- Title(参考訳): 連続ロボット制御のための新規サンプル再利用
- Authors: Ke Duan, Kai Yang, Houde Liu, Xueqian Wang,
- Abstract要約: 強化学習では、エージェントは環境相互作用を通じて国家情報と報酬を収集する。
従来のアルゴリズムは、通常、一組のサンプルを処理した後、環境に再侵入する。
不均一なサンプル利用に対処するために,新規誘導型サンプル再利用(NSR)を提案する。
- 参考スコア(独自算出の注目度): 5.994465739516181
- License:
- Abstract: In reinforcement learning, agents collect state information and rewards through environmental interactions, essential for policy refinement. This process is notably time-consuming, especially in complex robotic simulations and real-world applications. Traditional algorithms usually re-engage with the environment after processing a single batch of samples, thereby failing to fully capitalize on historical data. However, frequently observed states, with reliable value estimates, require minimal updates; in contrast, rare observed states necessitate more intensive updates for achieving accurate value estimations. To address uneven sample utilization, we propose Novelty-guided Sample Reuse (NSR). NSR provides extra updates for infrequent, novel states and skips additional updates for frequent states, maximizing sample use before interacting with the environment again. Our experiments show that NSR improves the convergence rate and success rate of algorithms without significantly increasing time consumption. Our code is publicly available at https://github.com/ppksigs/NSR-DDPG-HER.
- Abstract(参考訳): 強化学習において、エージェントは政策改善に不可欠な環境相互作用を通じて国家情報と報酬を収集する。
このプロセスは特に複雑なロボットシミュレーションや現実世界の応用において時間を要する。
従来のアルゴリズムは通常、単一のサンプルを処理した後、環境に再侵入する。
対照的に、稀に観測された状態は正確な値推定を達成するためにより集中的な更新を必要とする。
不均一なサンプル利用に対処するため,NSR(Novety-Guided Sample Reuse)を提案する。
NSRは、頻繁で新しい状態に対する追加アップデートを提供し、頻繁な状態に対する追加アップデートをスキップし、再び環境と対話する前にサンプル使用を最大化する。
実験の結果,NSRは時間消費を大幅に増加させることなく,アルゴリズムの収束率と成功率を改善することがわかった。
私たちのコードはhttps://github.com/ppksigs/NSR-DDPG-HERで公開されています。
関連論文リスト
- Investigating the Interplay of Prioritized Replay and Generalization [23.248982121562985]
本稿では,TD誤差に比例してサンプリングを行う優先経験再生(PER)について検討する。
PERは動的プログラミングにおける優先順位付けされたスイーピングの成功にインスパイアされている。
論文 参考訳(メタデータ) (2024-07-12T21:56:24Z) - ChaosMining: A Benchmark to Evaluate Post-Hoc Local Attribution Methods in Low SNR Environments [14.284728947052743]
本研究では,低信号-雑音比(SNR)を特徴とする領域において,非関連領域から予測力のある特徴を識別するためのポストホック局所帰属法の有効性を検討する。
我々の実験では、スケーラビリティの制限とともに、予測と特徴選択の長所を強調しています。
論文 参考訳(メタデータ) (2024-06-17T23:39:29Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Understanding the effect of varying amounts of replay per step [0.0]
本研究では,マウンテンカー環境におけるDQN(Deep Q-Network)というモデルフリーアルゴリズムにおいて,各ステップごとの様々なリプレイの効果について検討する。
論文 参考訳(メタデータ) (2023-02-20T20:54:11Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Efficient Bayesian Policy Reuse with a Scalable Observation Model in
Deep Reinforcement Learning [9.854975702211165]
深部強化学習(DRL)におけるより効率的な政策伝達を実現するため,改良されたベイズ政策再利用(BPR)手法を提案する。
ほとんどのBPRアルゴリズムは、限られた情報を含む観察信号としてエピソードリターンを使用し、エピソードの終了まで取得できない。
我々は,より高速かつ高精度なタスク推論のための観測信号として,情報的かつ即時的な状態遷移サンプルを用いる。
論文 参考訳(メタデータ) (2022-04-16T05:55:43Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Modeling Personalized Item Frequency Information for Next-basket
Recommendation [63.94555438898309]
次世代レコメンデーション(NBR)は、電子商取引や小売業界で一般的である。
既存のRNNでは,レコメンデーションシナリオにおいて,アイテムの周波数情報を直接キャプチャすることはできない。
我々はこれらの臨界信号を直接利用する簡単なアイテム周波数に基づくk-nearest neighbors (kNN)法を提案する。
論文 参考訳(メタデータ) (2020-05-31T16:42:39Z) - Top-k Training of GANs: Improving GAN Performance by Throwing Away Bad
Samples [67.11669996924671]
GAN(Generative Adversarial Network)トレーニングアルゴリズムに,簡単な修正(一行のコード)を導入する。
ジェネレータパラメータを更新するとき、批判者が最も現実的に評価するバッチの要素から勾配のコントリビューションをゼロにします。
このトップk更新の手順が一般的に適用可能な改善であることを示す。
論文 参考訳(メタデータ) (2020-02-14T19:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。