論文の概要: Active Reinforcement Learning Strategies for Offline Policy Improvement
- arxiv url: http://arxiv.org/abs/2412.13106v1
- Date: Tue, 17 Dec 2024 17:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:43.740692
- Title: Active Reinforcement Learning Strategies for Offline Policy Improvement
- Title(参考訳): オフライン政策改善のためのアクティブ強化学習戦略
- Authors: Ambedkar Dukkipati, Ranga Shaarad Ayyagari, Bodhisattwa Dasgupta, Parag Dutta, Prabhas Reddy Onteru,
- Abstract要約: シーケンシャルな意思決定タスクに優れる学習エージェントは、最適な学習のための探索と搾取の問題を継続的に解決しなければならない。
本稿では,対話戦略をインテリジェントに決定する表現認識不確実性に基づくアクティブトラジェクトリ収集手法を提案する。
大規模な実験により,提案手法は,競争基準よりも環境とのオンラインインタラクションを最大75%削減することを示した。
- 参考スコア(独自算出の注目度): 8.2883946876766
- License:
- Abstract: Learning agents that excel at sequential decision-making tasks must continuously resolve the problem of exploration and exploitation for optimal learning. However, such interactions with the environment online might be prohibitively expensive and may involve some constraints, such as a limited budget for agent-environment interactions and restricted exploration in certain regions of the state space. Examples include selecting candidates for medical trials and training agents in complex navigation environments. This problem necessitates the study of active reinforcement learning strategies that collect minimal additional experience trajectories by reusing existing offline data previously collected by some unknown behavior policy. In this work, we propose a representation-aware uncertainty-based active trajectory collection method that intelligently decides interaction strategies that consider the distribution of the existing offline data. With extensive experimentation, we demonstrate that our proposed method reduces additional online interaction with the environment by up to 75% over competitive baselines across various continuous control environments.
- Abstract(参考訳): シーケンシャルな意思決定タスクに優れる学習エージェントは、最適な学習のための探索と搾取の問題を継続的に解決しなければならない。
しかし、このような環境との対話は違法に高価であり、エージェントと環境の相互作用の予算の制限や、州空間の特定の領域での探索の制限など、いくつかの制約が伴う可能性がある。
例えば、複雑なナビゲーション環境において、臨床試験の候補を選ぶことや、トレーニングエージェントを選択することなどがある。
この問題は、以前に未知の行動方針によって収集された既存のオフラインデータを再利用することにより、最小限の付加体験軌道を収集するアクティブ強化学習戦略の研究を必要とする。
本研究では,既存のオフラインデータの分布を考慮したインタラクション戦略をインテリジェントに決定する,表現型不確実性に基づくアクティブトラジェクトリ収集手法を提案する。
大規模な実験により,提案手法は,様々な連続制御環境における競争ベースラインよりも,環境とのオンラインインタラクションを最大75%削減できることが実証された。
関連論文リスト
- Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning [19.463863037999054]
自律型ロボット工学やビデオゲームシミュレーションのような動的ドメインでは、エージェントは、以前獲得したスキルを維持しながら、新しいタスクに継続的に適応する必要がある。
継続的強化学習(Continuous Reinforcement Learning)として知られるこの継続的なプロセスは、過去の知識を忘れるリスクを含む重要な課題を提示します。
オフラインナビゲーション設定における連続学習を目的とした新しいフレームワークであるHILOW(HIerarchical LOW-rank Subspaces of Policies)を紹介する。
論文 参考訳(メタデータ) (2024-12-19T14:00:03Z) - Temporal Abstraction in Reinforcement Learning with Offline Data [8.370420807869321]
本稿では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。
我々は,Gym MuJoCo環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。
論文 参考訳(メタデータ) (2024-07-21T18:10:31Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Unsupervised Reinforcement Learning in Multiple Environments [37.5349071806395]
複数の環境のクラスにおける教師なし強化学習の課題に対処する。
本稿では,クラス間のインタラクションを通じて導入対象を最適化するために,ポリシー勾配アルゴリズムである$alpha$MEPOLを提案する。
事前学習した探索戦略から,強化学習が大きなメリットがあることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T09:54:37Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。