論文の概要: NovGrid: A Flexible Grid World for Evaluating Agent Response to Novelty
- arxiv url: http://arxiv.org/abs/2203.12117v1
- Date: Wed, 23 Mar 2022 01:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 09:17:41.371856
- Title: NovGrid: A Flexible Grid World for Evaluating Agent Response to Novelty
- Title(参考訳): NovGrid: 新規性に対するエージェント応答を評価するフレキシブルグリッドワールド
- Authors: Jonathan Balloch, Zhiyu Lin, Mustafa Hussain, Aarun Srinivas, Robert
Wright, Xiangyu Peng, Julia Kim, Mark Riedl
- Abstract要約: 我々はMiniGrid上に構築されたノベルティ生成フレームワークであるNovGridを紹介する。
コアであるNovGridとともに、オントロジーと整合した模範的なノベルティを提供し、ノベルティテンプレートとしてインスタンス化する。
本稿では,新しい適応型機械学習技術の評価のために,フレームワークに組み込まれた指標について述べる。
- 参考スコア(独自算出の注目度): 8.705624336757461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A robust body of reinforcement learning techniques have been developed to
solve complex sequential decision making problems. However, these methods
assume that train and evaluation tasks come from similarly or identically
distributed environments. This assumption does not hold in real life where
small novel changes to the environment can make a previously learned policy
fail or introduce simpler solutions that might never be found. To that end we
explore the concept of {\em novelty}, defined in this work as the sudden change
to the mechanics or properties of environment. We provide an ontology of for
novelties most relevant to sequential decision making, which distinguishes
between novelties that affect objects versus actions, unary properties versus
non-unary relations, and the distribution of solutions to a task. We introduce
NovGrid, a novelty generation framework built on MiniGrid, acting as a toolkit
for rapidly developing and evaluating novelty-adaptation-enabled reinforcement
learning techniques. Along with the core NovGrid we provide exemplar novelties
aligned with our ontology and instantiate them as novelty templates that can be
applied to many MiniGrid-compliant environments. Finally, we present a set of
metrics built into our framework for the evaluation of
novelty-adaptation-enabled machine-learning techniques, and show
characteristics of a baseline RL model using these metrics.
- Abstract(参考訳): 複雑な逐次意思決定問題を解決するための強固な強化学習手法が開発されている。
しかしながら、これらの手法は、列車と評価タスクは、同じまたは同一の分散環境から来ていると仮定する。
この仮定は、環境への小さな新しい変化が、以前に学んだポリシーを失敗させたり、見つからないような単純なソリューションを導入したりするような現実には当てはまらない。
そのために我々は、この研究で定義される「新奇」の概念を、環境の力学や性質に対する突然の変化として探求する。
対象と行動に影響を及ぼす新規性、一意的特性と非一意的関係、課題に対する解の分布を区別する、逐次的意思決定に最も関係のある新規性に関するオントロジーを提供する。
ノベルティ適応型強化学習手法を迅速に開発・評価するためのツールキットとして,minigrid上に構築されたノベルティ生成フレームワークであるnovgridを紹介する。
NovGridの中核であるNovGridとともに、オントロジーと整合した典型的なノベルティを提供し、多くのMiniGrid準拠環境に適用可能なノベルティテンプレートとしてインスタンス化する。
最後に,新しい適応型機械学習手法の評価のためのフレームワークに組み込まれたメトリクスセットを示し,これらのメトリクスを用いたベースラインrlモデルの特徴を示す。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Fine-Grained Knowledge Selection and Restoration for Non-Exemplar Class
Incremental Learning [64.14254712331116]
非典型的なクラスインクリメンタル学習は、過去のトレーニングデータにアクセスすることなく、新しいタスクと古いタスクの両方を学ぶことを目的としている。
本稿では, きめ細かい知識選択と復元のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-20T02:34:11Z) - Generalization to New Sequential Decision Making Tasks with In-Context
Learning [23.36106067650874]
少数のデモから新しいタスクを学習できる自律エージェントの訓練は、機械学習における長年の問題である。
本稿では,変換器を逐次決定問題に適用しても,新しいタスクの文脈内学習は不可能であることを示す。
我々は、異なる設計選択を調査し、より大きなモデルとデータセットサイズ、さらにタスクの多様性、環境、トラジェクトリのバーストネスが、新しいアウト・オブ・ディストリビューションタスクのコンテキスト内学習の改善をもたらすことを発見した。
論文 参考訳(メタデータ) (2023-12-06T15:19:28Z) - Methods and Mechanisms for Interactive Novelty Handling in Adversarial
Environments [32.175953686781284]
本稿では,異なる種類の新規性を検出し,特徴付けるための一般的な方法とアーキテクチャ機構を紹介する。
対戦型マルチエージェントボードゲームMonopolyにおいて,サードパーティによる評価において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-02-28T00:05:48Z) - RAPid-Learn: A Framework for Learning to Recover for Handling Novelties
in Open-World Environments [17.73296831597868]
RAPid-Learn はタスクの Markov Decision Process (MDPs) をオンザフライで修正し、解決するように設計されている。
環境変化によって引き起こされる新しいダイナミクスを学ぶために、ドメイン知識を活用することができる。
Minecraftにインスパイアされたグリッドワールド環境において,多種多様なノベルティを導入することで,その効果を実証する。
論文 参考訳(メタデータ) (2022-06-24T21:40:10Z) - Multi-Environment Meta-Learning in Stochastic Linear Bandits [49.387421094105136]
単一環境ではなく混合分布からタスクパラメータを引き出す場合のメタ学習の可能性を検討する。
我々は,新しいタスクが発する環境の知識を必要とせずに,新しいタスクに対する後悔度を低く抑えるOFULアルゴリズムの正規化バージョンを提案する。
論文 参考訳(メタデータ) (2022-05-12T19:31:28Z) - REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive
Framework [0.6335848702857039]
動作環境の変化に応じて動作を適応できるソフトウェアシステムの開発を支援するための一般的なフレームワークが提案されている。
提案されたアプローチはREPTILEと呼ばれ、完全にプロアクティブな方法で動作し、イベントに反応するためにDeep Reinforcement Learningベースのエージェントに依存する。
本フレームワークでは、コンテキスト/環境に関するものと、物理的なアーキテクチャそのものに関するものとの2つのタイプのノベルティを考慮に入れている。
このフレームワークは、その発生前にこれらの新規性を予測し、環境の時間変化モデルを抽出し、適切なマルコフ決定プロセスを使用してリアルタイム設定に対処する。
論文 参考訳(メタデータ) (2022-03-28T12:38:08Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。