論文の概要: Joint Learning of Hierarchical Neural Options and Abstract World Model
- arxiv url: http://arxiv.org/abs/2602.02799v1
- Date: Mon, 02 Feb 2026 20:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.086669
- Title: Joint Learning of Hierarchical Neural Options and Abstract World Model
- Title(参考訳): 階層型ニューラルオプションの連成学習と抽象世界モデル
- Authors: Wasu Top Piriyakulkij, Wolfgang Lehrach, Kevin Ellis, Kevin Murphy,
- Abstract要約: 階層型ニューラルオプションとして形式化されたスキルのシーケンスを効率的に取得する方法を検討する。
本稿では,抽象世界モデルと階層型ニューラルオプションの集合を共同で学習する新しい手法を提案する。
我々は,オブジェクト中心アタリゲームのサブセットにおいて,ベースライン方式よりもはるかに少ないデータを用いて,我々の手法がより多くのスキルを習得できることを示す。
- 参考スコア(独自算出の注目度): 16.909000091644682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building agents that can perform new skills by composing existing skills is a long-standing goal of AI agent research. Towards this end, we investigate how to efficiently acquire a sequence of skills, formalized as hierarchical neural options. However, existing model-free hierarchical reinforcement algorithms need a lot of data. We propose a novel method, which we call AgentOWL (Option and World model Learning Agent), that jointly learns -- in a sample efficient way -- an abstract world model (abstracting across both states and time) and a set of hierarchical neural options. We show, on a subset of Object-Centric Atari games, that our method can learn more skills using much less data than baseline methods.
- Abstract(参考訳): 既存のスキルを構成することによって新しいスキルを発揮できるエージェントを構築することは、AIエージェント研究の長年の目標である。
この目的に向けて,階層型ニューラルオプションとして形式化されたスキルのシーケンスを効率的に取得する方法を検討する。
しかし、既存のモデルフリー階層的強化アルゴリズムには大量のデータが必要である。
我々は,AgentOWL(Option and World Model Learning Agent)と呼ばれる,抽象世界モデル(状態と時間の両方を対象とする)と階層的ニューラルオプションのセットを共用的に学習する,新しい手法を提案する。
我々は,オブジェクト中心アタリゲームのサブセットにおいて,ベースライン方式よりもはるかに少ないデータを用いて,我々の手法がより多くのスキルを習得できることを示す。
関連論文リスト
- A Survey on Generative Recommendation: Data, Model, and Tasks [55.36322811257545]
ジェネレーティブ・レコメンデーションは、差別的なスコアではなく、世代としてのレコメンデーションを再認識する。
この調査は、データ、モデル、タスク次元にまたがる統合された三部構成のフレームワークを通じて包括的な調査を提供する。
世界知識の統合、自然言語理解、推論能力、スケーリング法則、創造的生成の5つの主要な利点を特定します。
論文 参考訳(メタデータ) (2025-10-31T04:02:58Z) - Efficient Human-in-the-Loop Active Learning: A Novel Framework for Data Labeling in AI Systems [0.6267574471145215]
本稿では,現代のAIシステムに適用可能な,新たなアクティブラーニングフレームワークを提案する。
従来のアクティブな学習手法とは違い、どのデータポイントにラベルを付けるべきかを判断することのみに重点を置いているのに対し、我々のフレームワークは異なるクエリスキームを組み込むという革新的な視点も導入しています。
提案する能動学習フレームワークは,他の手法と比較して精度が高く,損失も少ない。
論文 参考訳(メタデータ) (2024-12-31T05:12:51Z) - Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化し、プリミティブアクションへの高レベルの時間抽象化で属性を変更することで、階層的に最もよく解決されている。
我々は,識別的世界モデルを学ぶ完全モデルに基づくアルゴリズムを提案し,数に基づく本質的な報酬のみを用いて効率的に探索し,その後に発見された(抽象的な)状態に到達する計画を立てる。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Neural Routing in Meta Learning [9.070747377130472]
入力タスクに条件付けされたモデルの部分のみを選択的に使用することにより,現在のメタ学習アルゴリズムのモデル性能を向上させることを目指している。
本稿では、バッチ正規化層におけるスケーリング係数を活用することにより、深層畳み込みニューラルネットワーク(CNN)におけるタスク依存の動的ニューロン選択を研究するアプローチについて述べる。
提案手法であるニューラルルーティング・イン・メタラーニング(NRML)は,数ショットの分類タスクにおいて,既知のメタラーニングベースラインの1つである。
論文 参考訳(メタデータ) (2022-10-14T16:31:24Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。