Fugu-MT 論文翻訳(概要): A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks

論文の概要: A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks

arxiv url: http://arxiv.org/abs/2506.02883v1
Date: Tue, 03 Jun 2025 13:48:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.717113
Title: A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks
Title（参考訳）: ナビゲーションタスクのオフライン強化学習ベンチマーク
Authors: Anthony Kobanda, Odalric-Ambrym Maillard, Rémy Portelas,
Abstract要約: ビデオゲームナビゲーションシナリオのスイートを提供するベンチマークを導入する。アルゴリズムの性能を評価するために、さまざまなタスク、データセット、評価プロトコル、メトリクスのセットを定義します。
参考スコア（独自算出の注目度）: 13.804488794709806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous agents operating in domains such as robotics or video game simulations must adapt to changing tasks without forgetting about the previous ones. This process called Continual Reinforcement Learning poses non-trivial difficulties, from preventing catastrophic forgetting to ensuring the scalability of the approaches considered. Building on recent advances, we introduce a benchmark providing a suite of video-game navigation scenarios, thus filling a gap in the literature and capturing key challenges : catastrophic forgetting, task adaptation, and memory efficiency. We define a set of various tasks and datasets, evaluation protocols, and metrics to assess the performance of algorithms, including state-of-the-art baselines. Our benchmark is designed not only to foster reproducible research and to accelerate progress in continual reinforcement learning for gaming, but also to provide a reproducible framework for production pipelines -- helping practitioners to identify and to apply effective approaches.
Abstract（参考訳）: ロボット工学やビデオゲームシミュレーションのようなドメインで動作する自律エージェントは、以前のタスクを忘れずにタスクの変更に適応する必要がある。継続的強化学習(Continuous Reinforcement Learning)と呼ばれるこのプロセスは、破滅的な忘れ込みを防ぎ、検討されたアプローチのスケーラビリティを確実にする。近年の進歩を反映して,ゲームナビゲーションシナリオのスイートを提供するベンチマークを導入し,文献のギャップを埋めるとともに,破滅的な忘れ込み,タスク適応,メモリ効率といった重要な課題を克服する。我々は、最先端のベースラインを含むアルゴリズムのパフォーマンスを評価するために、さまざまなタスクやデータセット、評価プロトコル、メトリクスのセットを定義します。私たちのベンチマークは、再現可能な研究を促進し、ゲームのための継続的強化学習の進展を加速するだけでなく、生産パイプラインのための再現可能なフレームワークを提供することを目的としています。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2～3倍向上する。
論文参考訳（メタデータ） (2025-06-09T07:32:52Z)
Online Continual Learning: A Systematic Literature Review of Approaches, Challenges, and Benchmarks [1.3631535881390204]
オンライン連続学習(OCL)は、機械学習において重要な分野である。本研究は,OCLに関する総合的なシステム文献レビューを初めて実施する。
論文参考訳（メタデータ） (2025-01-09T01:03:14Z)
Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning [19.463863037999054]
我々は,学習エージェントが獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習の仕組みを考察する。オフラインデータからナビゲーション設定を継続学習するために設計された,新しい階層型フレームワークであるHiSPOを紹介する。本研究では,MuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証した。
論文参考訳（メタデータ） (2024-12-19T14:00:03Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。提案手法の有効性と将来性を示す。
論文参考訳（メタデータ） (2023-09-21T13:49:05Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
Algorithm Design for Online Meta-Learning with Task Boundary Detection [63.284263611646]
非定常環境におけるタスクに依存しないオンラインメタ学習のための新しいアルゴリズムを提案する。まず,タスクスイッチと分散シフトの簡易かつ効果的な2つの検出機構を提案する。軽度条件下では,線形タスク平均的後悔がアルゴリズムに対して達成可能であることを示す。
論文参考訳（メタデータ） (2023-02-02T04:02:49Z)
Learning Goal-Conditioned Policies Offline with Self-Supervised Reward Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-01-05T15:07:10Z)
Data-efficient Weakly-supervised Learning for On-line Object Detection under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文参考訳（メタデータ） (2020-12-28T16:36:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。