論文の概要: Modelling the Doughnut of social and planetary boundaries with frugal machine learning
- arxiv url: http://arxiv.org/abs/2512.02200v1
- Date: Mon, 01 Dec 2025 20:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.606624
- Title: Modelling the Doughnut of social and planetary boundaries with frugal machine learning
- Title(参考訳): フラガアル機械学習による社会・惑星境界ダウナットのモデル化
- Authors: Stefano Vrizzi, Daniel W. O'Neill,
- Abstract要約: 機械学習(ML)手法がドーナツの単純なマクロ経済モデルにどのように適用できるかを示す。
MLメソッドを使って‘Doughnut内での生活’と整合したポリシーパラメータを見つける方法を示す。
ランダムフォレスト(Random Forest)や$Q$-learning(Q$-learning)など、私たちがテストするアプローチは、環境と社会の持続可能性の両方を達成するためのポリシーパラメータの組み合わせを見つけることのできる粗末なML手法です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 'Doughnut' of social and planetary boundaries has emerged as a popular framework for assessing environmental and social sustainability. Here, we provide a proof-of-concept analysis that shows how machine learning (ML) methods can be applied to a simple macroeconomic model of the Doughnut. First, we show how ML methods can be used to find policy parameters that are consistent with 'living within the Doughnut'. Second, we show how a reinforcement learning agent can identify the optimal trajectory towards desired policies in the parameter space. The approaches we test, which include a Random Forest Classifier and $Q$-learning, are frugal ML methods that are able to find policy parameter combinations that achieve both environmental and social sustainability. The next step is the application of these methods to a more complex ecological macroeconomic model.
- Abstract(参考訳): 社会と惑星の境界の「ドーナット」は、環境と社会の持続可能性を評価するための一般的な枠組みとして現れてきた。
本稿では,機械学習(ML)手法がドーナツの単純なマクロ経済モデルにどのように適用できるかを示す概念実証分析を提案する。
まず、MLメソッドを使って、"Doughnut内での生活"と整合したポリシーパラメータを見つける方法を示す。
第二に、強化学習エージェントがパラメータ空間における所望のポリシーに対する最適軌道を特定する方法を示す。
ランダムフォレスト分類器(Random Forest Classifier)や$Q$-learning(Q$-learning)などの手法は、環境と社会の持続可能性の両方を達成するためのポリシーパラメータの組み合わせを見つけることができる、粗末なML手法である。
次のステップは、より複雑な生態学的マクロ経済モデルへのこれらの手法の適用である。
関連論文リスト
- Mitigating Information Loss in Tree-Based Reinforcement Learning via Direct Optimization [9.035959289139102]
本稿では,SYMbolic tree-based on-policy RLの新しい手法であるSYMPOLを紹介する。
SYMPOLは、ポリシー勾配法と統合されたツリーベースのモデルを採用しており、エージェントはそのアクションを学習し、適応することができる。
我々は、SYMPOLを一連のベンチマークRLタスクで評価し、代替木ベースのRLアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T14:04:40Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Learning Macroeconomic Policies through Dynamic Stackelberg Mean-Field Games [14.341143540616441]
政府(リーダー)はポリシーを設定し、エージェント(フォロワー)は時間とともに彼らの行動を最適化することで対応します。
エージェントの数が増加するにつれて、エージェントエージェントとエージェントの相互作用を明示的にシミュレートすることは、計算的に不可能になる。
エージェント・ポピュレーションと政府・ポピュレーションの結合による複雑な相互作用を近似する動的スタックバーグ平均場ゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T13:22:31Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Gradient Method For Robust Reinforcement Learning [23.62008807533706]
本稿では,モデルミスマッチ下での頑健な強化学習のための大域的最適性保証と複雑性解析を用いた最初のポリシー勾配法を開発した。
提案手法は, 直接的政策パラメータ化の下で, 大域的最適勾配に収束することを示す。
次に、我々の方法論を一般のモデルフリー設定に拡張し、ロバストなパラメトリックポリシークラスと値関数を設計する。
論文 参考訳(メタデータ) (2022-05-15T17:35:17Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。