論文の概要: A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks
- arxiv url: http://arxiv.org/abs/2506.02883v1
- Date: Tue, 03 Jun 2025 13:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.717113
- Title: A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks
- Title(参考訳): ナビゲーションタスクのオフライン強化学習ベンチマーク
- Authors: Anthony Kobanda, Odalric-Ambrym Maillard, Rémy Portelas,
- Abstract要約: ビデオゲームナビゲーションシナリオのスイートを提供するベンチマークを導入する。
アルゴリズムの性能を評価するために、さまざまなタスク、データセット、評価プロトコル、メトリクスのセットを定義します。
- 参考スコア(独自算出の注目度): 13.804488794709806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents operating in domains such as robotics or video game simulations must adapt to changing tasks without forgetting about the previous ones. This process called Continual Reinforcement Learning poses non-trivial difficulties, from preventing catastrophic forgetting to ensuring the scalability of the approaches considered. Building on recent advances, we introduce a benchmark providing a suite of video-game navigation scenarios, thus filling a gap in the literature and capturing key challenges : catastrophic forgetting, task adaptation, and memory efficiency. We define a set of various tasks and datasets, evaluation protocols, and metrics to assess the performance of algorithms, including state-of-the-art baselines. Our benchmark is designed not only to foster reproducible research and to accelerate progress in continual reinforcement learning for gaming, but also to provide a reproducible framework for production pipelines -- helping practitioners to identify and to apply effective approaches.
- Abstract(参考訳): ロボット工学やビデオゲームシミュレーションのようなドメインで動作する自律エージェントは、以前のタスクを忘れずにタスクの変更に適応する必要がある。
継続的強化学習(Continuous Reinforcement Learning)と呼ばれるこのプロセスは、破滅的な忘れ込みを防ぎ、検討されたアプローチのスケーラビリティを確実にする。
近年の進歩を反映して,ゲームナビゲーションシナリオのスイートを提供するベンチマークを導入し,文献のギャップを埋めるとともに,破滅的な忘れ込み,タスク適応,メモリ効率といった重要な課題を克服する。
我々は、最先端のベースラインを含むアルゴリズムのパフォーマンスを評価するために、さまざまなタスクやデータセット、評価プロトコル、メトリクスのセットを定義します。
私たちのベンチマークは、再現可能な研究を促進し、ゲームのための継続的強化学習の進展を加速するだけでなく、生産パイプラインのための再現可能なフレームワークを提供することを目的としています。
関連論文リスト
- Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning [19.463863037999054]
我々は,学習エージェントが獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習の仕組みを考察する。
オフラインデータからナビゲーション設定を継続学習するために設計された,新しい階層型フレームワークであるHiSPOを紹介する。
本研究では,MuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-19T14:00:03Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Algorithm Design for Online Meta-Learning with Task Boundary Detection [63.284263611646]
非定常環境におけるタスクに依存しないオンラインメタ学習のための新しいアルゴリズムを提案する。
まず,タスクスイッチと分散シフトの簡易かつ効果的な2つの検出機構を提案する。
軽度条件下では,線形タスク平均的後悔がアルゴリズムに対して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-02-02T04:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。