論文の概要: From model-based learning to model-free behaviour with Meta-Interpretive Learning
- arxiv url: http://arxiv.org/abs/2507.16434v1
- Date: Tue, 22 Jul 2025 10:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.073189
- Title: From model-based learning to model-free behaviour with Meta-Interpretive Learning
- Title(参考訳): メタ解釈学習によるモデルベース学習からモデルなし行動へ
- Authors: Stassa Patsantzis,
- Abstract要約: モデル」とは、環境の状態とエージェントの判断が環境に与える影響を記述する理論である。
モデルに基づくエージェントは、そのモデルを使用して将来の行動の効果を予測することができ、今後の計画を立てるが、環境の状態を知る必要がある。
モデルフリーエージェントは計画することができないが、モデルなしで行動し、環境を完全に観察する必要がない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A "model" is a theory that describes the state of an environment and the effects of an agent's decisions on the environment. A model-based agent can use its model to predict the effects of its future actions and so plan ahead, but must know the state of the environment. A model-free agent cannot plan, but can act without a model and without completely observing the environment. An autonomous agent capable of acting independently in novel environments must combine both sets of capabilities. We show how to create such an agent with Meta-Interpretive Learning used to learn a model-based Solver used to train a model-free Controller that can solve the same planning problems as the Solver. We demonstrate the equivalence in problem-solving ability of the two agents on grid navigation problems in two kinds of environment: randomly generated mazes, and lake maps with wide open areas. We find that all navigation problems solved by the Solver are also solved by the Controller, indicating the two are equivalent.
- Abstract(参考訳): モデル」とは、環境の状態とエージェントの判断が環境に与える影響を記述する理論である。
モデルに基づくエージェントは、そのモデルを使用して将来の行動の効果を予測することができ、今後の計画を立てるが、環境の状態を知る必要がある。
モデルフリーエージェントは計画することができないが、モデルなしで行動し、環境を完全に観察する必要がない。
新たな環境で独立して行動できる自律エージェントは、両方の能力セットを組み合わせる必要がある。
そこで本研究では,メタ解釈学習を用いてモデルベースソルバーを学習し,モデルフリーのコントローラを学習し,Solverと同じ計画問題を解く方法を示す。
ランダムに生成された迷路と広い開放領域を持つ湖沼マップの2種類の環境におけるグリッドナビゲーション問題に対する2つのエージェントの問題解決能力の等価性を示す。
また,Solver が解決したナビゲーション問題はすべて Controller によって解決され,両者が等価であることを示す。
関連論文リスト
- Learning Multiple Probabilistic Decisions from Latent World Model in Autonomous Driving [40.4491758280365]
自己回帰世界モデルは、堅牢な一般化能力を示すが、不確実性モデリングや自己導出が不十分なため、行動の導出に困難に直面する。
本研究では,環境の次状態とエゴ車両の動作を混合分布としてモデル化するフレームワークであるLatentDriverを提案する。
LatentDriverは最先端の強化学習と模倣学習を超越し、エキスパートレベルのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-24T04:26:24Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - A Domain-Independent Agent Architecture for Adaptive Operation in Evolving Open Worlds [11.954324860014758]
HYDRAは、混合した離散連続世界で動作するモデルベースのエージェントを設計するためのフレームワークである。
これは、エージェントが様々な側面から自身の振る舞いを監視できるようにする、新しいメタ推論プロセスを実装している。
このフレームワークは、3つの異なるドメインに対して新規に認識されたエージェントを実装するために使われてきた。
論文 参考訳(メタデータ) (2023-06-09T21:54:13Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。