論文の概要: CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.03577v1
- Date: Thu, 5 Sep 2024 14:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:15:17.182243
- Title: CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning
- Title(参考訳): CHIRPs:生涯強化学習のための変更誘発レグレトプロキシメトリクス
- Authors: John Birkbeck, Adam Sobey, Federico Cerutti, Katherine Heseltine Hurley Flynn, Timothy J. Norman,
- Abstract要約: 強化学習エージェントは、静的タスクにおいて超人的パフォーマンスを達成することができるが、タスク変更の訓練と脆弱化にはコストがかかる。
トレーニングエージェントの使用コストの高さを回避しつつ、変更の難易度を近似する指標のクラスである、変更誘発レグレトプロキシメトリクスを提案する。
CHIRPメトリックとエージェントパフォーマンスの関係は、単純なグリッドワールドとMetaWorldのロボットアームタスクスイートの2つの環境で識別される。
- 参考スコア(独自算出の注目度): 5.825410941577592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents can achieve superhuman performance in static tasks but are costly to train and fragile to task changes. This limits their deployment in real-world scenarios where training experience is expensive or the context changes through factors like sensor degradation, environmental processes or changing mission priorities. Lifelong reinforcement learning aims to improve sample efficiency and adaptability by studying how agents perform in evolving problems. The difficulty that these changes pose to an agent is rarely measured directly, however. Agent performances can be compared across a change, but this is often prohibitively expensive. We propose Change-Induced Regret Proxy (CHIRP) metrics, a class of metrics for approximating a change's difficulty while avoiding the high costs of using trained agents. A relationship between a CHIRP metric and agent performance is identified in two environments, a simple grid world and MetaWorld's suite of robotic arm tasks. We demonstrate two uses for these metrics: for learning, an agent that clusters MDPs based on a CHIRP metric achieves $17\%$ higher average returns than three existing agents in a sequence of MetaWorld tasks. We also show how a CHIRP can be calibrated to compare the difficulty of changes across distinctly different environments.
- Abstract(参考訳): 強化学習エージェントは、静的タスクにおいて超人的パフォーマンスを達成することができるが、タスク変更の訓練と脆弱化にはコストがかかる。
これにより、トレーニングエクスペリエンスが高価である実世界のシナリオや、センサの劣化や環境プロセス、ミッションの優先順位の変更といった要因によるコンテキスト変更が制限される。
生涯強化学習は、進化する問題においてエージェントがどのように機能するかを研究することによって、サンプル効率と適応性を向上させることを目的としている。
しかし、これらの変化が作用する難しさは直接的に測定されることはめったにない。
エージェントのパフォーマンスは変更全体で比較できるが、これはしばしば違法に高価である。
我々は、訓練されたエージェントの使用の高コストを回避しつつ、変更の難易度を評価するための指標のクラスである、CHRP(Change-induced Regret Proxy)メトリクスを提案する。
CHIRPメトリックとエージェントパフォーマンスの関係は、単純なグリッドワールドとMetaWorldのロボットアームタスクスイートの2つの環境で識別される。
CHIRPメトリックに基づいてMDPをクラスタ化するエージェントは、MetaWorldタスクのシーケンスにおいて、既存の3つのエージェントよりも17\%$高い平均リターンを達成する。
また、CHIRPをキャリブレーションして、異なる環境にまたがる変更の難しさを比較する方法も示す。
関連論文リスト
- $TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning [7.97295726921338]
Temporal-Agent Reward Redistribution $TAR2$は、スパースグローバルな報酬をエージェント固有のタイムステップ固有のコンポーネントに分解する新しいアプローチである。
我々は、$TAR2$が潜在的な報酬形成と整合し、元の環境と同じ最適なポリシーを保っていることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.331052581441265]
我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。
CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文 参考訳(メタデータ) (2024-06-13T12:03:40Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - Enhancing reinforcement learning by a finite reward response filter with
a case study in intelligent structural control [0.0]
多くの強化学習(RL)問題では、エージェントの作用が環境に最大限の影響を及ぼすまで、しばらく時間がかかる。
本稿では,学習段階の開始時にエージェントがひとつの行動をとる,適用可能な拡張Q-ラーニング手法を提案する。
本研究では, 地震応答を受ける建物の振動を所定遅延で低減することを目的とした構造制御問題に対して, 提案手法を適用した。
論文 参考訳(メタデータ) (2020-10-25T19:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。