論文の概要: Synthesizing world models for bilevel planning
- arxiv url: http://arxiv.org/abs/2503.20124v1
- Date: Wed, 26 Mar 2025 00:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:50.979267
- Title: Synthesizing world models for bilevel planning
- Title(参考訳): 二段階計画のための世界モデル合成
- Authors: Zergham Ahmed, Joshua B. Tenenbaum, Christopher J. Bates, Samuel J. Gershman,
- Abstract要約: 理論に基づく強化学習(TBRL)は、このギャップに対処するために設計されたアルゴリズムフレームワークである。
TBRLは理論の階層的表現と、より強力な学習と計画のための効率的なプログラム合成手法を利用する。
政策を直接合成する手法が不十分な多様かつ挑戦的なグリッドワールドゲームに対して,このアプローチがうまく適用可能であることを実証する。
- 参考スコア(独自算出の注目度): 46.21010194281677
- License:
- Abstract: Modern reinforcement learning (RL) systems have demonstrated remarkable capabilities in complex environments, such as video games. However, they still fall short of achieving human-like sample efficiency and adaptability when learning new domains. Theory-based reinforcement learning (TBRL) is an algorithmic framework specifically designed to address this gap. Modeled on cognitive theories, TBRL leverages structured, causal world models - "theories" - as forward simulators for use in planning, generalization and exploration. Although current TBRL systems provide compelling explanations of how humans learn to play video games, they face several technical limitations: their theory languages are restrictive, and their planning algorithms are not scalable. To address these challenges, we introduce TheoryCoder, an instantiation of TBRL that exploits hierarchical representations of theories and efficient program synthesis methods for more powerful learning and planning. TheoryCoder equips agents with general-purpose abstractions (e.g., "move to"), which are then grounded in a particular environment by learning a low-level transition model (a Python program synthesized from observations by a large language model). A bilevel planning algorithm can exploit this hierarchical structure to solve large domains. We demonstrate that this approach can be successfully applied to diverse and challenging grid-world games, where approaches based on directly synthesizing a policy perform poorly. Ablation studies demonstrate the benefits of using hierarchical abstractions.
- Abstract(参考訳): 現代の強化学習(RL)システムは、ビデオゲームのような複雑な環境において顕著な能力を示している。
しかし、新しいドメインを学ぶ際には、人間のようなサンプル効率と適応性を達成するには至っていない。
理論に基づく強化学習(TBRL)は、このギャップに対処するために特別に設計されたアルゴリズムフレームワークである。
認知理論をモデルとしたTBRLは、構造化された因果世界モデル("理論")を、計画、一般化、探索に使用するフォワードシミュレータとして活用する。
現在のTBRLシステムは、人間がビデオゲームをプレイする方法について、説得力のある説明を提供するが、それらはいくつかの技術的な制限に直面している: 理論言語は制限的であり、計画アルゴリズムはスケーラブルではない。
これらの課題に対処するために,理論の階層的表現を利用するTBRLのインスタンス化と,より強力な学習と計画のための効率的なプログラム合成手法であるThoryCoderを紹介する。
TheoryCoderはエージェントに汎用的な抽象化(例えば"move to")を装備し、低レベルのトランジションモデル(大規模な言語モデルによる観察から合成されたPythonプログラム)を学習することで、特定の環境に基盤を置く。
双方向計画アルゴリズムは、この階層構造を利用して大きなドメインを解くことができる。
政策を直接合成する手法が不十分な多様かつ挑戦的なグリッドワールドゲームに対して,このアプローチがうまく適用可能であることを実証する。
アブレーション研究は階層的な抽象化を使うことの利点を示している。
関連論文リスト
- GenRL: Multimodal-foundation world models for generalization in embodied agents [12.263162194821787]
強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。
現在の基盤視覚言語モデル(VLM)は、微調整やその他の適応を具体的文脈で適用する必要がある。
このような領域におけるマルチモーダルデータの欠如は、具体化されたアプリケーションの基盤モデルを開発する上での障害である。
論文 参考訳(メタデータ) (2024-06-26T03:41:48Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions [13.774600272141761]
強化学習アルゴリズムは、様々な領域において変形的であることが証明されている。
RLの多くの理論は、離散状態空間や最悪のケース解析に焦点を当てている。
本稿では,様々な学習プロトコルを捉えることができるRLの高次元解像モデルを提案する。
論文 参考訳(メタデータ) (2023-06-17T18:16:51Z) - Mesarovician Abstract Learning Systems [0.0]
学習への現在のアプローチは、根本的な規範として問題領域と課題タスクの概念を持っている。
メサロビアン抽象システム理論は学習の超構造として用いられる。
論文 参考訳(メタデータ) (2021-11-29T18:17:32Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - World Model as a Graph: Learning Latent Landmarks for Planning [12.239590266108115]
計画は人間の知性の目印です。
著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。
本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
論文 参考訳(メタデータ) (2020-11-25T02:49:21Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。