Fugu-MT 論文翻訳(概要): Machine Learning Simulates Agent-Based Model Towards Policy

論文の概要: Machine Learning Simulates Agent-Based Model Towards Policy

arxiv url: http://arxiv.org/abs/2203.02576v1
Date: Fri, 4 Mar 2022 21:19:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-10 10:12:21.154904
Title: Machine Learning Simulates Agent-Based Model Towards Policy
Title（参考訳）: 機械学習によるエージェントモデルの構築
Authors: Bernardo Alves Furtado and Gustavo Onofre Andre\~ao
Abstract要約: ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。以上の結果から,MRには最適あるいは非最適結果が好まれる組込み構造がすでに存在することが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Public Policies are not intrinsically positive or negative. Rather, policies provide varying levels of effects across different recipients. Methodologically, computational modeling enables the application of a combination of multiple influences on empirical data, thus allowing for heterogeneous response to policies. We use a random forest machine learning algorithm to emulate an agent-based model (ABM) and evaluate competing policies across 46 Metropolitan Regions (MRs) in Brazil. In doing so, we use input parameters and output indicators of 11,076 actual simulation runs and one million emulated runs. As a result, we obtain the optimal (and non-optimal) performance of each region over the policies. Optimum is defined as a combination of production and inequality indicators for the full ensemble of MRs. Results suggest that MRs already have embedded structures that favor optimal or non-optimal results, but they also illustrate which policy is more beneficial to each place. In addition to providing MR-specific policies' results, the use of machine learning to simulate an ABM reduces the computational burden, whereas allowing for a much larger variation among model parameters. The coherence of results within the context of larger uncertainty -- vis-\`a-vis those of the original ABM -- suggests an additional test of robustness of the model. At the same time the exercise indicates which parameters should policymakers intervene, in order to work towards optimum of MRs.
Abstract（参考訳）: 公共政策は本質的に肯定的あるいは否定的ではない。むしろ、ポリシーは異なる受信者に対してさまざまなレベルの効果を提供する。方法論上、計算モデリングは経験的データに複数の影響の組み合わせを応用し、ポリシーへの異種な応答を可能にする。ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。その際,11,076回の実シミュレーション実行と100万回のエミュレート実行の入力パラメータと出力インジケータを使用する。その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。最適は、MRの完全なアンサンブルのための生産指標と不等式指標の組み合わせとして定義される。その結果、MRは、既に最適または非最適結果を好む組込み構造を有しており、各場所にどの政策がより有益かも示している。 MR固有のポリシーの結果の提供に加えて、機械学習を用いてABMをシミュレートすることで、計算負担を低減し、モデルパラメータ間の大きな変動を可能にする。より大きな不確実性の文脈における結果のコヒーレンス(vis-\`a-vis)は、モデルの堅牢性のさらなるテストを示している。同時に、この運動は、MRの最適化に向けて、政策立案者が介入すべきパラメータを示す。

関連論文リスト

Domain-driven Metrics for Reinforcement Learning: A Case Study on Epidemic Control using Agent-based Simulation [0.29360071145551064]
本研究では、最先端のメトリクスを構築しながら、RLのためのドメイン駆動メトリクスを開発している。結果は、いくつかの異なるシミュレーションシナリオにおいて、伝統的な、そして最先端のメトリクスと一緒にドメイン駆動の報酬を使うことを示しています。
論文参考訳（メタデータ） (2025-08-07T08:40:19Z)
Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。 POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-07-07T16:56:31Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Bayesian regularization of empirical MDPs [11.3458118258705]
ベイズ的な視点を採り、マルコフ決定プロセスの目的関数を事前情報で正規化する。提案するアルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
論文参考訳（メタデータ） (2022-08-03T22:02:50Z)
Sample Complexity of Robust Reinforcement Learning with a Generative Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文参考訳（メタデータ） (2021-12-02T18:55:51Z)
Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文参考訳（メタデータ） (2021-08-06T01:30:41Z)
Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文参考訳（メタデータ） (2021-05-25T19:48:35Z)
Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文参考訳（メタデータ） (2021-03-01T22:55:48Z)
Model-Based Policy Search Using Monte Carlo Gradient Estimation with Real Systems Application [12.854118767247453]
EmphMonte Carlo Probabilistic Inference for Learning Control (MC-PILCO) というモデルベース強化学習(MBRL)アルゴリズムを提案する。このアルゴリズムは、システム力学をモデル化するガウス過程(GP)と、政策勾配を推定するモンテカルロのアプローチに依存している。シミュレーションされたカートポール環境における数値的な比較により、MC-PILCOはより優れたデータ効率と制御性能を示すことが示された。
論文参考訳（メタデータ） (2021-01-28T17:01:15Z)
MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。システムのサンプリング効率を高めるために,能動的学習法を提案する。実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文参考訳（メタデータ） (2020-05-30T06:39:55Z)
Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文参考訳（メタデータ） (2020-02-28T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。