論文の概要: Rapid Open-World Adaptation by Adaptation Principles Learning
- arxiv url: http://arxiv.org/abs/2312.11138v1
- Date: Mon, 18 Dec 2023 12:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:19:38.641593
- Title: Rapid Open-World Adaptation by Adaptation Principles Learning
- Title(参考訳): 適応原理学習による迅速なオープンワールド適応
- Authors: Cheng Xue, Ekaterina Nikonova, Peng Zhang, Jochen Renz
- Abstract要約: そこで本研究では,オープンな世界において,DRLエージェントが様々な種類の新規性に迅速に対応可能な,シンプルで効果的な新しい手法であるNAPPingを提案する。
本手法は,報酬構造とタスクの種類が異なる4つのアクションドメインに対して評価する。
提案手法により,DRL エージェントは,試験対象領域にまたがる広範囲の新規状況に迅速かつ効果的に適応できることを示す。
- 参考スコア(独自算出の注目度): 7.727781243541364
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Novelty adaptation is the ability of an intelligent agent to adjust its
behavior in response to changes in its environment. This is an important
characteristic of intelligent agents, as it allows them to continue to function
effectively in novel or unexpected situations, but still stands as a critical
challenge for deep reinforcement learning (DRL). To tackle this challenge, we
propose a simple yet effective novel method, NAPPING (Novelty Adaptation
Principles Learning), that allows trained DRL agents to respond to different
classes of novelties in open worlds rapidly. With NAPPING, DRL agents can learn
to adjust the trained policy only when necessary. They can quickly generalize
to similar novel situations without affecting the part of the trained policy
that still works. To demonstrate the efficiency and efficacy of NAPPING, we
evaluate our method on four action domains that are different in reward
structures and the type of task. The domains are CartPole and MountainCar
(classic control), CrossRoad (path-finding), and AngryBirds (physical
reasoning). We compare NAPPING with standard online and fine-tuning DRL methods
in CartPole, MountainCar and CrossRoad, and state-of-the-art methods in the
more complicated AngryBirds domain. Our evaluation results demonstrate that
with our proposed method, DRL agents can rapidly and effectively adjust to a
wide range of novel situations across all tested domains.
- Abstract(参考訳): 新奇な適応とは、知的エージェントがその環境の変化に応じて行動を調整する能力である。
これは知的エージェントの重要な特徴であり、新しい状況や予期せぬ状況で効果的に機能し続けることができるが、深層強化学習(DRL)にとって重要な課題である。
この課題に取り組むために,訓練されたdrlエージェントがオープンワールドの異なるクラスに迅速に対応できる,単純かつ効果的なnapping (novelty adapt principles learning) 手法を提案する。
NAPPINGでは、DRLエージェントは必要に応じてトレーニングされたポリシーを調整することができる。
彼らは、まだ機能する訓練されたポリシーの一部に影響を与えずに、同様の新しい状況に素早く一般化することができる。
ナッピングの効率性と有効性を示すために,報奨構造とタスクの種類が異なる4つのアクションドメインについて評価を行った。
ドメインはCartPoleとMountainCar(古典的な制御)、CrossRoad(パスフィニング)、AngryBirds(物理推論)である。
我々はNAPPingを、CartPole、MountainCar、CrossRoadの標準的なオンラインおよび微調整DRLメソッドと、より複雑なAngryBirdsドメインの最先端メソッドと比較する。
提案手法により,drlエージェントは,すべてのテスト領域において,迅速かつ効果的に新たな状況に適応できることが実証された。
関連論文リスト
- ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。
Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。
Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文 参考訳(メタデータ) (2024-10-03T17:58:11Z) - Efficient Open-world Reinforcement Learning via Knowledge Distillation
and Autonomous Rule Discovery [5.680463564655267]
ルール駆動のディープラーニングエージェント(RDQ)がフレームワークの実装の可能な1つだ。
RDQは,世界との対話において,タスク固有のルールを抽出することに成功した。
実験では,RDQエージェントはベースラインエージェントよりも新規性に非常に耐性があることが示されている。
論文 参考訳(メタデータ) (2023-11-24T04:12:50Z) - ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning [0.0]
アダプタは自然言語処理やコンピュータビジョンなどの教師あり学習コンテキストにおいて有効であることが証明されている。
本稿では,学習効率の向上とベースエージェントの改良を実証する,革新的な適応戦略を提案する。
提案するユニバーサルアプローチは、事前訓練されたニューラルネットワークだけでなく、ルールベースのエージェントとも互換性があり、人間の専門知識を統合する手段を提供する。
論文 参考訳(メタデータ) (2023-11-20T04:54:51Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。