論文の概要: Action-State Dependent Dynamic Model Selection
- arxiv url: http://arxiv.org/abs/2307.04754v1
- Date: Fri, 7 Jul 2023 09:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:03:48.522597
- Title: Action-State Dependent Dynamic Model Selection
- Title(参考訳): 動作状態依存型動的モデル選択
- Authors: Francesco Cordoni and Alessio Sancetta
- Abstract要約: 強化学習アルゴリズムはデータから動的プログラミング問題に対する最適解を近似して推定するために用いられる。
典型的な例として、リバランスコストの下で異なるポートフォリオモデルを切り替える方法があります。
マクロ経済変数のセットと価格データを用いて、実証的なアプリケーションでは、後見で最高のポートフォリオモデルを選択するよりも優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 12.18340575383456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A model among many may only be best under certain states of the world.
Switching from a model to another can also be costly. Finding a procedure to
dynamically choose a model in these circumstances requires to solve a complex
estimation procedure and a dynamic programming problem. A Reinforcement
learning algorithm is used to approximate and estimate from the data the
optimal solution to this dynamic programming problem. The algorithm is shown to
consistently estimate the optimal policy that may choose different models based
on a set of covariates. A typical example is the one of switching between
different portfolio models under rebalancing costs, using macroeconomic
information. Using a set of macroeconomic variables and price data, an
empirical application to the aforementioned portfolio problem shows superior
performance to choosing the best portfolio model with hindsight.
- Abstract(参考訳): 多くの人のうちのモデルは、世界の特定の州においてのみ最善である。
モデルから別のモデルへの切り替えもコストがかかります。
このような状況下でモデルを動的に選択する手順を見つけるには、複雑な推定手順と動的計画問題を解く必要がある。
強化学習アルゴリズムは、この動的プログラミング問題の最適解としてデータから近似して推定するために用いられる。
このアルゴリズムは、一組の共変量に基づいて異なるモデルを選択することができる最適なポリシーを一貫して推定する。
典型的な例は、マクロ経済情報を用いて、再バランスコストの下で異なるポートフォリオモデルを切り替えることである。
マクロ経済変数と価格データの集合を用いることで、前述のポートフォリオ問題に対する経験的応用は、後から見て最高のポートフォリオモデルを選択することよりも優れたパフォーマンスを示す。
関連論文リスト
- MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - A Nested Weighted Tchebycheff Multi-Objective Bayesian Optimization
Approach for Flexibility of Unknown Utopia Estimation in Expensive Black-box
Design Problems [0.0]
既存の研究では、未知のユートピアを定式化するための重み付きTchebycheff MOBOアプローチが実証されている。
モデルアンサンブルから回帰モデル選択手順を構築する,ネスト重み付きTchebycheff MOBOフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-16T00:44:06Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Personalizing Performance Regression Models to Black-Box Optimization
Problems [0.755972004983746]
本研究では,数値最適化問題に対するパーソナライズされた回帰手法を提案する。
また、問題毎に1つの回帰モデルを選択するのではなく、パーソナライズされたアンサンブルを選択することの影響についても検討する。
本稿では,BBOBベンチマークコレクション上での数値最適化性能の予測について検討する。
論文 参考訳(メタデータ) (2021-04-22T11:47:47Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。