論文の概要: On the Benefits of Leveraging Structural Information in Planning Over
the Learned Model
- arxiv url: http://arxiv.org/abs/2303.08856v1
- Date: Wed, 15 Mar 2023 18:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 18:15:42.049233
- Title: On the Benefits of Leveraging Structural Information in Planning Over
the Learned Model
- Title(参考訳): 学習モデルによる計画における構造情報活用の利点について
- Authors: Jiajun Shen, Kananart Kuwaranancharoen, Raid Ayoub, Pietro Mercati,
Shreyas Sundaram
- Abstract要約: 本稿では, サンプルの複雑さを低減させる手法として, システム構造情報を活用する利点について検討する。
分析の結果,モデルの構造的情報を活用することで,サンプルの複雑さを大幅に削減できることが示唆された。
- 参考スコア(独自算出の注目度): 3.3512508970931236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based Reinforcement Learning (RL) integrates learning and planning and
has received increasing attention in recent years. However, learning the model
can incur a significant cost (in terms of sample complexity), due to the need
to obtain a sufficient number of samples for each state-action pair. In this
paper, we investigate the benefits of leveraging structural information about
the system in terms of reducing sample complexity. Specifically, we consider
the setting where the transition probability matrix is a known function of a
number of structural parameters, whose values are initially unknown. We then
consider the problem of estimating those parameters based on the interactions
with the environment. We characterize the difference between the Q estimates
and the optimal Q value as a function of the number of samples. Our analysis
shows that there can be a significant saving in sample complexity by leveraging
structural information about the model. We illustrate the findings by
considering several problems including controlling a queuing system with
heterogeneous servers, and seeking an optimal path in a stochastic windy
gridworld.
- Abstract(参考訳): モデルに基づく強化学習(RL)は,学習と計画を統合し,近年注目を集めている。
しかし、各状態-作用ペアに対して十分な数のサンプルを得る必要があるため、モデルの学習にはかなりのコスト(サンプルの複雑さの観点から)がかかる。
本稿では,サンプルの複雑性を低減することによるシステム構造情報の活用のメリットについて検討する。
具体的には、遷移確率行列が多くの構造パラメータの既知の関数であり、初期値が未知であるような設定を考える。
次に,環境との相互作用に基づいてパラメータを推定する問題を考察する。
サンプル数の関数として,Q推定値と最適Q値との差を特徴付ける。
分析の結果,モデルの構造的情報を活用することで,サンプルの複雑さを大幅に削減できることがわかった。
本稿では,異種サーバによるキューシステム制御や,確率的グリッドワールドにおける最適経路の探索など,いくつかの問題点を考察した。
関連論文リスト
- From Displacements to Distributions: A Machine-Learning Enabled
Framework for Quantifying Uncertainties in Parameters of Computational Models [0.09208007322096533]
本研究は、工学系のモデリングにおける不確実性を定量化するための2つのフレームワークを組み合わせるための新しい拡張を提案する。
データ一貫性反復(DC)フレームワークは、与えられた関心の量(QoI)マップに対するプルバックおよびプッシュフォワード測度の観点からアレタリック不確かさを定量化するための逆問題と解決策を提供する。
Learning Uncertain Quantities (LUQ)フレームワークは、ノイズの多いデータセットを学習されたQoIマップのサンプルに変換する3ステップの機械学習を可能にする正式なプロセスを定義する。
論文 参考訳(メタデータ) (2024-03-04T20:40:50Z) - On the Role of Information Structure in Reinforcement Learning for Partially-Observable Sequential Teams and Games [55.2480439325792]
逐次的意思決定問題において、情報構造とは、異なる時点に発生するシステム内の事象が相互にどのように影響するかを記述するものである。
対照的に、現実のシーケンシャルな意思決定問題は通常、システム変数の複雑で時間的な相互依存を伴う。
情報構造を明示する新しい強化学習モデルを定式化する。
論文 参考訳(メタデータ) (2024-03-01T21:28:19Z) - Balancing Explainability-Accuracy of Complex Models [8.402048778245165]
我々は,コリレーションの影響に基づき,複雑なモデルに対する新しいアプローチを提案する。
独立機能と依存機能の両方のシナリオに対するアプローチを提案する。
従属特徴に対する提案手法の複雑さの上限を提供する。
論文 参考訳(メタデータ) (2023-05-23T14:20:38Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - A Causality-Based Learning Approach for Discovering the Underlying
Dynamics of Complex Systems from Partial Observations with Stochastic
Parameterization [1.2882319878552302]
本稿では,部分的な観測を伴う複雑な乱流系の反復学習アルゴリズムを提案する。
モデル構造を識別し、観測されていない変数を復元し、パラメータを推定する。
数値実験により、新しいアルゴリズムはモデル構造を同定し、多くの複雑な非線形系に対して適切なパラメータ化を提供することに成功した。
論文 参考訳(メタデータ) (2022-08-19T00:35:03Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Scalable Gaussian Processes for Data-Driven Design using Big Data with
Categorical Factors [14.337297795182181]
ガウス過程(GP)は、大きなデータセット、カテゴリ入力、および複数の応答を調節するのに困難である。
本稿では,変分推論によって得られた潜伏変数と関数を用いて,上記の課題を同時に解決するGPモデルを提案する。
本手法は三元系酸化物材料の機械学習と多スケール対応機構のトポロジー最適化に有用である。
論文 参考訳(メタデータ) (2021-06-26T02:17:23Z) - A Forward Backward Greedy approach for Sparse Multiscale Learning [0.0]
本稿では,カーネルが重み付きマルチスケール構造を持つRKHS(Reproduction Kernel Hilbert space)を提案する。
この空間における近似を生成するために、多スケール構造を持つ基底関数の集合をゆるやかに構成できる実用的なフォワードバックワードアルゴリズムを提供する。
我々は,様々なシミュレーションと実データ集合を用いて,アプローチの性能を解析する。
論文 参考訳(メタデータ) (2021-02-14T04:22:52Z) - Transformer Hawkes Process [79.16290557505211]
本稿では,長期的依存関係を捕捉する自己認識機構を利用したTransformer Hawkes Process (THP) モデルを提案する。
THPは、有意なマージンによる可能性と事象予測の精度の両方の観点から、既存のモデルより優れている。
本稿では、THPが関係情報を組み込む際に、複数の点過程を学習する際の予測性能の改善を実現する具体例を示す。
論文 参考訳(メタデータ) (2020-02-21T13:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。