Fugu-MT 論文翻訳(概要): Action-State Dependent Dynamic Model Selection

論文の概要: Action-State Dependent Dynamic Model Selection

arxiv url: http://arxiv.org/abs/2307.04754v2
Date: Mon, 9 Oct 2023 14:01:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 08:06:53.972154
Title: Action-State Dependent Dynamic Model Selection
Title（参考訳）: 動作状態依存型動的モデル選択
Authors: Francesco Cordoni and Alessio Sancetta
Abstract要約: 強化学習アルゴリズムはデータから動的プログラミング問題に対する最適解を近似して推定するために用いられる。典型的な例として、リバランスコストの下で異なるポートフォリオモデルを切り替える方法があります。マクロ経済変数のセットと価格データを用いて、実証的なアプリケーションでは、後見で最高のポートフォリオモデルを選択するよりも優れたパフォーマンスを示す。
参考スコア（独自算出の注目度）: 6.5268245109828005
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: A model among many may only be best under certain states of the world. Switching from a model to another can also be costly. Finding a procedure to dynamically choose a model in these circumstances requires to solve a complex estimation procedure and a dynamic programming problem. A Reinforcement learning algorithm is used to approximate and estimate from the data the optimal solution to this dynamic programming problem. The algorithm is shown to consistently estimate the optimal policy that may choose different models based on a set of covariates. A typical example is the one of switching between different portfolio models under rebalancing costs, using macroeconomic information. Using a set of macroeconomic variables and price data, an empirical application to the aforementioned portfolio problem shows superior performance to choosing the best portfolio model with hindsight.
Abstract（参考訳）: 多くの人のうちのモデルは、世界の特定の州においてのみ最善である。モデルから別のモデルへの切り替えもコストがかかります。このような状況下でモデルを動的に選択する手順を見つけるには、複雑な推定手順と動的計画問題を解く必要がある。強化学習アルゴリズムは、この動的プログラミング問題の最適解としてデータから近似して推定するために用いられる。このアルゴリズムは、一組の共変量に基づいて異なるモデルを選択することができる最適なポリシーを一貫して推定する。典型的な例は、マクロ経済情報を用いて、再バランスコストの下で異なるポートフォリオモデルを切り替えることである。マクロ経済変数と価格データの集合を用いることで、前述のポートフォリオ問題に対する経験的応用は、後から見て最高のポートフォリオモデルを選択することよりも優れたパフォーマンスを示す。

関連論文リスト

MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。 MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文参考訳（メタデータ） (2024-06-11T17:55:25Z)
Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文参考訳（メタデータ） (2023-11-11T11:13:07Z)
COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。 $textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文参考訳（メタデータ） (2023-10-11T06:10:07Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Sample Complexity of Robust Reinforcement Learning with a Generative Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文参考訳（メタデータ） (2021-12-02T18:55:51Z)
A Nested Weighted Tchebycheff Multi-Objective Bayesian Optimization Approach for Flexibility of Unknown Utopia Estimation in Expensive Black-box Design Problems [0.0]
既存の研究では、未知のユートピアを定式化するための重み付きTchebycheff MOBOアプローチが実証されている。モデルアンサンブルから回帰モデル選択手順を構築する,ネスト重み付きTchebycheff MOBOフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-16T00:44:06Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Personalizing Performance Regression Models to Black-Box Optimization Problems [0.755972004983746]
本研究では,数値最適化問題に対するパーソナライズされた回帰手法を提案する。また、問題毎に1つの回帰モデルを選択するのではなく、パーソナライズされたアンサンブルを選択することの影響についても検討する。本稿では,BBOBベンチマークコレクション上での数値最適化性能の予測について検討する。
論文参考訳（メタデータ） (2021-04-22T11:47:47Z)
Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。このアプローチは多くの実装と最適化の課題をもたらします。提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文参考訳（メタデータ） (2021-03-18T14:26:26Z)
Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文参考訳（メタデータ） (2021-02-11T16:27:31Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文参考訳（メタデータ） (2020-06-09T18:30:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。