論文の概要: CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.03577v1
- Date: Thu, 5 Sep 2024 14:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:15:17.182243
- Title: CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning
- Title(参考訳): CHIRPs:生涯強化学習のための変更誘発レグレトプロキシメトリクス
- Authors: John Birkbeck, Adam Sobey, Federico Cerutti, Katherine Heseltine Hurley Flynn, Timothy J. Norman,
- Abstract要約: 強化学習エージェントは、静的タスクにおいて超人的パフォーマンスを達成することができるが、タスク変更の訓練と脆弱化にはコストがかかる。
トレーニングエージェントの使用コストの高さを回避しつつ、変更の難易度を近似する指標のクラスである、変更誘発レグレトプロキシメトリクスを提案する。
CHIRPメトリックとエージェントパフォーマンスの関係は、単純なグリッドワールドとMetaWorldのロボットアームタスクスイートの2つの環境で識別される。
- 参考スコア(独自算出の注目度): 5.825410941577592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents can achieve superhuman performance in static tasks but are costly to train and fragile to task changes. This limits their deployment in real-world scenarios where training experience is expensive or the context changes through factors like sensor degradation, environmental processes or changing mission priorities. Lifelong reinforcement learning aims to improve sample efficiency and adaptability by studying how agents perform in evolving problems. The difficulty that these changes pose to an agent is rarely measured directly, however. Agent performances can be compared across a change, but this is often prohibitively expensive. We propose Change-Induced Regret Proxy (CHIRP) metrics, a class of metrics for approximating a change's difficulty while avoiding the high costs of using trained agents. A relationship between a CHIRP metric and agent performance is identified in two environments, a simple grid world and MetaWorld's suite of robotic arm tasks. We demonstrate two uses for these metrics: for learning, an agent that clusters MDPs based on a CHIRP metric achieves $17\%$ higher average returns than three existing agents in a sequence of MetaWorld tasks. We also show how a CHIRP can be calibrated to compare the difficulty of changes across distinctly different environments.
- Abstract(参考訳): 強化学習エージェントは、静的タスクにおいて超人的パフォーマンスを達成することができるが、タスク変更の訓練と脆弱化にはコストがかかる。
これにより、トレーニングエクスペリエンスが高価である実世界のシナリオや、センサの劣化や環境プロセス、ミッションの優先順位の変更といった要因によるコンテキスト変更が制限される。
生涯強化学習は、進化する問題においてエージェントがどのように機能するかを研究することによって、サンプル効率と適応性を向上させることを目的としている。
しかし、これらの変化が作用する難しさは直接的に測定されることはめったにない。
エージェントのパフォーマンスは変更全体で比較できるが、これはしばしば違法に高価である。
我々は、訓練されたエージェントの使用の高コストを回避しつつ、変更の難易度を評価するための指標のクラスである、CHRP(Change-induced Regret Proxy)メトリクスを提案する。
CHIRPメトリックとエージェントパフォーマンスの関係は、単純なグリッドワールドとMetaWorldのロボットアームタスクスイートの2つの環境で識別される。
CHIRPメトリックに基づいてMDPをクラスタ化するエージェントは、MetaWorldタスクのシーケンスにおいて、既存の3つのエージェントよりも17\%$高い平均リターンを達成する。
また、CHIRPをキャリブレーションして、異なる環境にまたがる変更の難しさを比較する方法も示す。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文 参考訳(メタデータ) (2023-02-07T12:30:52Z) - TransfQMix: Transformers for Leveraging the Graph Structure of
Multi-Agent Reinforcement Learning Problems [0.0]
TransfQMixは、トランスフォーマーを使用して潜在グラフ構造を活用し、より良いコーディネーションポリシーを学習する新しいアプローチである。
我々の変換器Q-mixerは、エージェントの内部状態と外部状態を含む大きなグラフから単調混合関数を学習する。
本稿では,TransfQMixのSpreadおよびStarCraft II環境における性能について報告する。
論文 参考訳(メタデータ) (2023-01-13T00:07:08Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Multi-Agent Transfer Learning in Reinforcement Learning-Based
Ride-Sharing Systems [3.7311680121118345]
強化学習(Reinforcement Learning, RL)は、実世界の様々なシミュレーションタスクで使われている。
本稿では,固定ソースとターゲットロールを用いたTL転送パラメータの影響について検討する。
論文 参考訳(メタデータ) (2021-12-01T11:23:40Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。
まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。
第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文 参考訳(メタデータ) (2020-03-03T18:56:49Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。