論文の概要: Increasing Information for Model Predictive Control with Semi-Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2501.17256v1
- Date: Tue, 28 Jan 2025 19:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:42.875165
- Title: Increasing Information for Model Predictive Control with Semi-Markov Decision Processes
- Title(参考訳): セミマルコフ決定プロセスを用いたモデル予測制御のための情報量増加
- Authors: Rémy Hosseinkhan Boucher, Onofrio Semeraro, Lionel Mathelin,
- Abstract要約: 本稿では,セミマルコフ決定プロセスのフレームワークによる時間的抽象化を紹介する。
このフレームワークは、固定されたサンプリング予算のための収集されたデータの総情報を増加させ、サンプルの複雑さを低減させる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent works in Learning-Based Model Predictive Control of dynamical systems show impressive sample complexity performances using criteria from Information Theory to accelerate the learning procedure. However, the sequential exploration opportunities are limited by the system local state, restraining the amount of information of the observations from the current exploration trajectory. This article resolves this limitation by introducing temporal abstraction through the framework of Semi-Markov Decision Processes. The framework increases the total information of the gathered data for a fixed sampling budget, thus reducing the sample complexity.
- Abstract(参考訳): 動的システムの学習モデル予測制御における最近の研究は、学習手順を加速するために情報理論の基準を用いて、見事なサンプル複雑性性能を示す。
しかしながら、シーケンシャルな探査の機会は、現在の探査軌道からの観測情報の量を制限するため、システムのローカルな状態によって制限される。
本稿では,セミマルコフ決定プロセスの枠組みを通じて時間的抽象化を導入することにより,この制限を解消する。
このフレームワークは、固定されたサンプリング予算のために収集されたデータの総情報を増大させ、サンプルの複雑さを低減させる。
関連論文リスト
- Deep Learning Meets Oversampling: A Learning Framework to Handle Imbalanced Classification [0.0]
データ駆動型で合成データインスタンスを生成できる新しい学習フレームワークを提案する。
提案手法は, オーバーサンプリング過程を離散決定基準の構成として定式化する。
不均衡な分類タスクの実験は、最先端のアルゴリズムよりも我々のフレームワークの方が優れていることを示す。
論文 参考訳(メタデータ) (2025-02-08T13:35:00Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - On the Role of Information Structure in Reinforcement Learning for Partially-Observable Sequential Teams and Games [55.2480439325792]
逐次的意思決定問題において、情報構造とは、異なる時点に発生するシステム内の事象が相互にどのように影響するかを記述するものである。
対照的に、現実のシーケンシャルな意思決定問題は通常、システム変数の複雑で時間的な相互依存を伴う。
情報構造を明示する新しい強化学習モデルを定式化する。
論文 参考訳(メタデータ) (2024-03-01T21:28:19Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - CoSMo: a Framework to Instantiate Conditioned Process Simulation Models [1.6021728114882514]
本稿では,ユーザの制約やアプリオリ知識の他の性質に基づいて,CoSMo(Conditioned Process Simulation Models)の発見に適した,新しいリカレントニューラルネットワークを提案する。
このアーキテクチャは、宣言型ルールを学習フェーズに組み込むことで、特定の制約に従うイベントログのシミュレーションを容易にする。
論文 参考訳(メタデータ) (2023-03-31T08:26:18Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Stream-based active learning with linear models [0.7734726150561089]
生産において、製品情報を取得するためにランダム検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。
本稿では,ストリームベースのシナリオを学習者に順次提供するための新たな戦略を提案する。
未ラベルデータポイントの通知性にしきい値を設定することにより、意思決定プロセスの反復的な側面に取り組む。
論文 参考訳(メタデータ) (2022-07-20T13:15:23Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Blockwise Sequential Model Learning for Partially Observable
Reinforcement Learning [14.642266310020505]
本稿では、部分的に観測可能なマルコフ決定問題を解くために、新しい逐次モデル学習アーキテクチャを提案する。
提案アーキテクチャは,各データブロックに複数のタイムステップを持つ潜時変数を生成し,最も関連性の高い情報を次のブロックに渡してポリシー最適化を行う。
数値計算の結果,提案手法は様々な部分観測可能な環境において,従来の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-10T05:38:24Z) - A Meta-learning Approach to Reservoir Computing: Time Series Prediction
with Limited Data [0.0]
本研究では,実験プロセスから適切なモデル構造を自動的に抽出するデータ駆動型手法を提案する。
簡単なベンチマーク問題に対して,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2021-10-07T18:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。