論文の概要: On the Benefits of Leveraging Structural Information in Planning Over
the Learned Model
- arxiv url: http://arxiv.org/abs/2303.08856v1
- Date: Wed, 15 Mar 2023 18:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 18:15:42.049233
- Title: On the Benefits of Leveraging Structural Information in Planning Over
the Learned Model
- Title(参考訳): 学習モデルによる計画における構造情報活用の利点について
- Authors: Jiajun Shen, Kananart Kuwaranancharoen, Raid Ayoub, Pietro Mercati,
Shreyas Sundaram
- Abstract要約: 本稿では, サンプルの複雑さを低減させる手法として, システム構造情報を活用する利点について検討する。
分析の結果,モデルの構造的情報を活用することで,サンプルの複雑さを大幅に削減できることが示唆された。
- 参考スコア(独自算出の注目度): 3.3512508970931236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based Reinforcement Learning (RL) integrates learning and planning and
has received increasing attention in recent years. However, learning the model
can incur a significant cost (in terms of sample complexity), due to the need
to obtain a sufficient number of samples for each state-action pair. In this
paper, we investigate the benefits of leveraging structural information about
the system in terms of reducing sample complexity. Specifically, we consider
the setting where the transition probability matrix is a known function of a
number of structural parameters, whose values are initially unknown. We then
consider the problem of estimating those parameters based on the interactions
with the environment. We characterize the difference between the Q estimates
and the optimal Q value as a function of the number of samples. Our analysis
shows that there can be a significant saving in sample complexity by leveraging
structural information about the model. We illustrate the findings by
considering several problems including controlling a queuing system with
heterogeneous servers, and seeking an optimal path in a stochastic windy
gridworld.
- Abstract(参考訳): モデルに基づく強化学習(RL)は,学習と計画を統合し,近年注目を集めている。
しかし、各状態-作用ペアに対して十分な数のサンプルを得る必要があるため、モデルの学習にはかなりのコスト(サンプルの複雑さの観点から)がかかる。
本稿では,サンプルの複雑性を低減することによるシステム構造情報の活用のメリットについて検討する。
具体的には、遷移確率行列が多くの構造パラメータの既知の関数であり、初期値が未知であるような設定を考える。
次に,環境との相互作用に基づいてパラメータを推定する問題を考察する。
サンプル数の関数として,Q推定値と最適Q値との差を特徴付ける。
分析の結果,モデルの構造的情報を活用することで,サンプルの複雑さを大幅に削減できることがわかった。
本稿では,異種サーバによるキューシステム制御や,確率的グリッドワールドにおける最適経路の探索など,いくつかの問題点を考察した。
関連論文リスト
- Tale of two c(omplex)ities [25.665534614984647]
高次元スパース線形回帰設定における最適部分集合選択の変数選択特性について検討する。
同定可能性マージンとは別に、以下の2つの複雑さ尺度がモデル整合性のマージン条件を特徴づける上で基本的な役割を果たすことを示す。
論文 参考訳(メタデータ) (2023-01-16T04:52:46Z) - Discover, Explanation, Improvement: Automatic Slice Detection Framework
for Natural Language Processing [65.63380943075745]
「発見、説明、改善」フレームワークは、データポイントの一貫性と性能の低いグループを発見する。
我々のフレームワークは、エラーパターンを要約する情報的意味的特徴によって、エラーを起こしやすいデータポイントを正確に選択できる。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - A Causality-Based Learning Approach for Discovering the Underlying
Dynamics of Complex Systems from Partial Observations with Stochastic
Parameterization [1.2882319878552302]
本稿では,部分的な観測を伴う複雑な乱流系の反復学習アルゴリズムを提案する。
モデル構造を識別し、観測されていない変数を復元し、パラメータを推定する。
数値実験により、新しいアルゴリズムはモデル構造を同定し、多くの複雑な非線形系に対して適切なパラメータ化を提供することに成功した。
論文 参考訳(メタデータ) (2022-08-19T00:35:03Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Scalable Gaussian Processes for Data-Driven Design using Big Data with
Categorical Factors [14.337297795182181]
ガウス過程(GP)は、大きなデータセット、カテゴリ入力、および複数の応答を調節するのに困難である。
本稿では,変分推論によって得られた潜伏変数と関数を用いて,上記の課題を同時に解決するGPモデルを提案する。
本手法は三元系酸化物材料の機械学習と多スケール対応機構のトポロジー最適化に有用である。
論文 参考訳(メタデータ) (2021-06-26T02:17:23Z) - A Forward Backward Greedy approach for Sparse Multiscale Learning [0.0]
本稿では,カーネルが重み付きマルチスケール構造を持つRKHS(Reproduction Kernel Hilbert space)を提案する。
この空間における近似を生成するために、多スケール構造を持つ基底関数の集合をゆるやかに構成できる実用的なフォワードバックワードアルゴリズムを提供する。
我々は,様々なシミュレーションと実データ集合を用いて,アプローチの性能を解析する。
論文 参考訳(メタデータ) (2021-02-14T04:22:52Z) - Cost-Effective Federated Learning Design [37.16466118235272]
フェデレーション学習(federated learning, fl)は、多数のデバイスが生のデータを共有することなく、協調的にモデルを学習できる分散学習パラダイムである。
その効率性と有効性にもかかわらず、反復的なオンデバイス学習プロセスは、学習時間とエネルギー消費の面でかなりのコストを伴います。
本稿では,本質的制御変数を最適に選択する適応型flの設計法を分析し,総コストを最小化し,収束性を確保した。
論文 参考訳(メタデータ) (2020-12-15T14:45:11Z) - Transformer Hawkes Process [79.16290557505211]
本稿では,長期的依存関係を捕捉する自己認識機構を利用したTransformer Hawkes Process (THP) モデルを提案する。
THPは、有意なマージンによる可能性と事象予測の精度の両方の観点から、既存のモデルより優れている。
本稿では、THPが関係情報を組み込む際に、複数の点過程を学習する際の予測性能の改善を実現する具体例を示す。
論文 参考訳(メタデータ) (2020-02-21T13:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。