論文の概要: CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.03577v2
- Date: Thu, 30 Jan 2025 12:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 22:50:03.854341
- Title: CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning
- Title(参考訳): CHIRPs:生涯強化学習のための変更誘発レグレトプロキシメトリクス
- Authors: John Birkbeck, Adam Sobey, Federico Cerutti, Katherine Heseltine Hurley Flynn, Timothy J. Norman,
- Abstract要約: 強化学習(Reinforcement Learning, RL)エージェントは、環境の変化を訓練し、脆弱にするために費用がかかる。
変更自体からエージェントのパフォーマンスへの影響を予測できるかどうか、これまでの作業では定まっていない。
エージェントのパフォーマンス低下に変化を関連付けるために,CHRP(Change-induced Regret Proxy)メトリクスを提案する。
- 参考スコア(独自算出の注目度): 5.825410941577592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents are costly to train and fragile to environmental changes. They often perform poorly when there are many changing tasks, prohibiting their widespread deployment in the real world. Many Lifelong RL agent designs have been proposed to mitigate issues such as catastrophic forgetting or demonstrate positive characteristics like forward transfer when change occurs. However, no prior work has established whether the impact on agent performance can be predicted from the change itself. Understanding this relationship will help agents proactively mitigate a change's impact for improved learning performance. We propose Change-Induced Regret Proxy (CHIRP) metrics to link change to agent performance drops and use two environments to demonstrate a CHIRP's utility in lifelong learning. A simple CHIRP-based agent achieved $48\%$ higher performance than the next best method in one benchmark and attained the best success rates in 8 of 10 tasks in a second benchmark which proved difficult for existing lifelong RL agents.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)エージェントは、環境の変化を訓練し、脆弱にするために費用がかかる。
多くの変更タスクがある場合、多くの場合、パフォーマンスが悪く、現実の世界でのデプロイメントを禁止します。
多くのライフロングRLエージェントは、破滅的な忘れ込みや、変化が起こったときに前方移動のようなポジティブな特性を示すような問題を緩和するために提案されている。
しかし、変更自体からエージェントのパフォーマンスへの影響を予測できるかどうかについては、まだ未定である。
この関係を理解することは、エージェントが学習性能を改善するための変化の影響を積極的に緩和するのに役立つ。
本研究では,CHRP(Change-induced Regret Proxy)メトリクスを提案し,変更をエージェントのパフォーマンス低下にリンクし,一生学習におけるCHIRPの有用性を示すために2つの環境を使用する。
1つのベンチマークでは、単純なCHIRPベースのエージェントが次のベストメソッドよりも48\%高いパフォーマンスを達成し、もう1つのベンチマークでは10タスク中8タスクで最高の成功率を達成した。
関連論文リスト
- Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - $TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning [7.97295726921338]
Temporal-Agent Reward Redistribution $TAR2$は、スパースグローバルな報酬をエージェント固有のタイムステップ固有のコンポーネントに分解する新しいアプローチである。
我々は、$TAR2$が潜在的な報酬形成と整合し、元の環境と同じ最適なポリシーを保っていることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.331052581441265]
我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。
CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文 参考訳(メタデータ) (2024-06-13T12:03:40Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文 参考訳(メタデータ) (2023-02-07T12:30:52Z) - TransfQMix: Transformers for Leveraging the Graph Structure of
Multi-Agent Reinforcement Learning Problems [0.0]
TransfQMixは、トランスフォーマーを使用して潜在グラフ構造を活用し、より良いコーディネーションポリシーを学習する新しいアプローチである。
我々の変換器Q-mixerは、エージェントの内部状態と外部状態を含む大きなグラフから単調混合関数を学習する。
本稿では,TransfQMixのSpreadおよびStarCraft II環境における性能について報告する。
論文 参考訳(メタデータ) (2023-01-13T00:07:08Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Multi-Agent Transfer Learning in Reinforcement Learning-Based
Ride-Sharing Systems [3.7311680121118345]
強化学習(Reinforcement Learning, RL)は、実世界の様々なシミュレーションタスクで使われている。
本稿では,固定ソースとターゲットロールを用いたTL転送パラメータの影響について検討する。
論文 参考訳(メタデータ) (2021-12-01T11:23:40Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Enhancing reinforcement learning by a finite reward response filter with
a case study in intelligent structural control [0.0]
多くの強化学習(RL)問題では、エージェントの作用が環境に最大限の影響を及ぼすまで、しばらく時間がかかる。
本稿では,学習段階の開始時にエージェントがひとつの行動をとる,適用可能な拡張Q-ラーニング手法を提案する。
本研究では, 地震応答を受ける建物の振動を所定遅延で低減することを目的とした構造制御問題に対して, 提案手法を適用した。
論文 参考訳(メタデータ) (2020-10-25T19:28:35Z) - Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。
まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。
第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文 参考訳(メタデータ) (2020-03-03T18:56:49Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。