論文の概要: Efficient Open-world Reinforcement Learning via Knowledge Distillation
and Autonomous Rule Discovery
- arxiv url: http://arxiv.org/abs/2311.14270v1
- Date: Fri, 24 Nov 2023 04:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:01:23.730770
- Title: Efficient Open-world Reinforcement Learning via Knowledge Distillation
and Autonomous Rule Discovery
- Title(参考訳): 知識蒸留と自律ルール発見による効率的なオープンワールド強化学習
- Authors: Ekaterina Nikonova, Cheng Xue, Jochen Renz
- Abstract要約: ルール駆動のディープラーニングエージェント(RDQ)がフレームワークの実装の可能な1つだ。
RDQは,世界との対話において,タスク固有のルールを抽出することに成功した。
実験では,RDQエージェントはベースラインエージェントよりも新規性に非常に耐性があることが示されている。
- 参考スコア(独自算出の注目度): 5.680463564655267
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep reinforcement learning suffers from catastrophic forgetting and sample
inefficiency making it less applicable to the ever-changing real world.
However, the ability to use previously learned knowledge is essential for AI
agents to quickly adapt to novelties. Often, certain spatial information
observed by the agent in the previous interactions can be leveraged to infer
task-specific rules. Inferred rules can then help the agent to avoid
potentially dangerous situations in the previously unseen states and guide the
learning process increasing agent's novelty adaptation speed. In this work, we
propose a general framework that is applicable to deep reinforcement learning
agents. Our framework provides the agent with an autonomous way to discover the
task-specific rules in the novel environments and self-supervise it's learning.
We provide a rule-driven deep Q-learning agent (RDQ) as one possible
implementation of that framework. We show that RDQ successfully extracts
task-specific rules as it interacts with the world and uses them to drastically
increase its learning efficiency. In our experiments, we show that the RDQ
agent is significantly more resilient to the novelties than the baseline
agents, and is able to detect and adapt to novel situations faster.
- Abstract(参考訳): 深層強化学習は壊滅的な放棄とサンプルの非効率に苦しむため、絶えず変化する現実世界に適用できない。
しかし、AIエージェントが新規性に迅速に適応するためには、事前に学習した知識を使用する能力が不可欠である。
しばしば、前のインタラクションでエージェントが観察した空間情報は、タスク固有のルールを推測するために利用することができる。
推論されたルールは、エージェントが未確認状態の潜在的に危険な状況を避けるのに役立ち、エージェントの新規適応速度を高める学習プロセスを導く。
本研究では,深層強化学習エージェントに適用可能な汎用フレームワークを提案する。
我々のフレームワークはエージェントに、新しい環境におけるタスク固有のルールを発見し、学習を自己監督する自律的な方法を提供する。
ルール駆動型深層Q学習エージェント(RDQ)をそのフレームワークの実装として提供する。
本研究では,RDQが世界との対話においてタスク固有のルールを抽出し,学習効率を大幅に向上させることを示す。
実験では、rdqエージェントはベースラインエージェントよりも新規性に対して著しく弾力性があり、新しい状況に素早く適応できることを示した。
関連論文リスト
- ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。
Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。
Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文 参考訳(メタデータ) (2024-10-03T17:58:11Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Self-Initiated Open World Learning for Autonomous AI Agents [16.41396764793912]
実際にAIエージェントが使われるようになるにつれて、エージェントを完全に自律的にする方法を考える時が来た。
本稿では,自己開始型オープンワールド学習エージェントの構築研究を促進するための,この学習パラダイムの理論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-21T18:11:02Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。