論文の概要: Model-free Reinforcement Learning for Model-based Control: Towards Safe, Interpretable and Sample-efficient Agents
- arxiv url: http://arxiv.org/abs/2507.13491v1
- Date: Thu, 17 Jul 2025 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.117512
- Title: Model-free Reinforcement Learning for Model-based Control: Towards Safe, Interpretable and Sample-efficient Agents
- Title(参考訳): モデルベース制御のためのモデルフリー強化学習:安全・解釈・サンプル効率エージェントを目指して
- Authors: Thomas Banker, Ali Mesbah,
- Abstract要約: この研究は、制御ポリシー近似の魅力的な代替手段としてモデルベースエージェントを導入している。
これらのモデルは、エージェントの決定を知らせ、制約し、助けるために、事前のシステム知識を符号化することができる。
モデルベースエージェントの学習のメリットと課題について概説する。
- 参考スコア(独自算出の注目度): 6.9290255098776425
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training sophisticated agents for optimal decision-making under uncertainty has been key to the rapid development of modern autonomous systems across fields. Notably, model-free reinforcement learning (RL) has enabled decision-making agents to improve their performance directly through system interactions, with minimal prior knowledge about the system. Yet, model-free RL has generally relied on agents equipped with deep neural network function approximators, appealing to the networks' expressivity to capture the agent's policy and value function for complex systems. However, neural networks amplify the issues of sample inefficiency, unsafe learning, and limited interpretability in model-free RL. To this end, this work introduces model-based agents as a compelling alternative for control policy approximation, leveraging adaptable models of system dynamics, cost, and constraints for safe policy learning. These models can encode prior system knowledge to inform, constrain, and aid in explaining the agent's decisions, while deficiencies due to model mismatch can be remedied with model-free RL. We outline the benefits and challenges of learning model-based agents -- exemplified by model predictive control -- and detail the primary learning approaches: Bayesian optimization, policy search RL, and offline strategies, along with their respective strengths. While model-free RL has long been established, its interplay with model-based agents remains largely unexplored, motivating our perspective on their combined potentials for sample-efficient learning of safe and interpretable decision-making agents.
- Abstract(参考訳): 不確実性の下での最適な意思決定のための洗練されたエージェントの訓練は、分野横断の近代的な自律システムの急速な発展の鍵となった。
特に、モデルフリー強化学習(RL)では、意思決定エージェントがシステム間相互作用を直接的に改善することができ、システムに関する事前知識は最小限に抑えられている。
しかし、モデルのないRLは一般的にディープニューラルネットワーク機能近似器を備えたエージェントに依存しており、複雑なシステムのエージェントのポリシーと値関数を捉えるためにネットワークの表現性に訴えている。
しかし、ニューラルネットワークは、サンプルの非効率性、安全でない学習、モデルなしRLの限定的な解釈可能性といった問題を増幅する。
この目的のために、制御ポリシー近似の魅力的な代替手段としてモデルベースエージェントを導入し、安全なポリシー学習のためのシステムダイナミクス、コスト、制約の適応可能なモデルを活用する。
これらのモデルは、事前のシステム知識を符号化し、エージェントの判断を伝達し、制約し、助けることができるが、モデルミスマッチによる欠陥はモデルフリーのRLで修復することができる。
モデルベースのエージェント(モデル予測制御によって実証される)の学習のメリットと課題を概説し、ベイズ最適化、ポリシー検索RL、オフライン戦略などの学習アプローチと、それぞれの強みについて詳述する。
モデルフリーのRLは長い間確立されてきたが、モデルベースエージェントとの相互作用はほとんど探索されていない。
関連論文リスト
- An Intelligent Fault Self-Healing Mechanism for Cloud AI Systems via Integration of Large Language Models and Deep Reinforcement Learning [1.1149781202731994]
大規模言語モデル(LLM)と深層強化学習(DRL)を統合したインテリジェントフォールト自己修復機構(IFSHM)を提案する。
IFSHMは,クラウドAIシステムにおけるセマンティック理解とポリシ最適化機能を備えた障害復旧フレームワークの実現を目的としている。
クラウドフォールトインジェクションプラットフォームの実験的結果は、既存のDRLとルールメソッドと比較して、IFSHMフレームワークが未知の障害シナリオでシステムリカバリ時間を37%短縮することを示している。
論文 参考訳(メタデータ) (2025-06-09T04:14:05Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。