Fugu-MT 論文翻訳(概要): Reinforcement Learning for Combining Search Methods in the Calibration of Economic ABMs

論文の概要: Reinforcement Learning for Combining Search Methods in the Calibration of Economic ABMs

arxiv url: http://arxiv.org/abs/2302.11835v2
Date: Wed, 10 May 2023 20:08:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-12 18:00:31.483358
Title: Reinforcement Learning for Combining Search Methods in the Calibration of Economic ABMs
Title（参考訳）: 経済ABMの校正における探索手法の組み合わせによる強化学習
Authors: Aldo Glielmo, Marco Favorito, Debmallya Chanda and Domenico Delli Gatti
Abstract要約: 我々は、よく知られたマクロ経済ABMのキャリブレーションにおける多くの探索手法を実データ上でベンチマークする。ランダム・フォレスト・サロゲートに基づく手法は特に効率的であることが判明した。本研究では,検索手法を自動的に選択し,組み合わせるための強化学習手法を提案する。
参考スコア（独自算出の注目度）: 2.021175152213487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Calibrating agent-based models (ABMs) in economics and finance typically involves a derivative-free search in a very large parameter space. In this work, we benchmark a number of search methods in the calibration of a well-known macroeconomic ABM on real data, and further assess the performance of "mixed strategies" made by combining different methods. We find that methods based on random-forest surrogates are particularly efficient, and that combining search methods generally increases performance since the biases of any single method are mitigated. Moving from these observations, we propose a reinforcement learning (RL) scheme to automatically select and combine search methods on-the-fly during a calibration run. The RL agent keeps exploiting a specific method only as long as this keeps performing well, but explores new strategies when the specific method reaches a performance plateau. The resulting RL search scheme outperforms any other method or method combination tested, and does not rely on any prior information or trial and error procedure.
Abstract（参考訳）: 経済学と金融学におけるエージェントベースモデル(ABM)の校正は通常、非常に大きなパラメータ空間における微分自由探索を伴う。本研究では、実データ上でよく知られたマクロ経済ABMの校正における多くの探索手法をベンチマークし、異なる手法を組み合わせた「混合戦略」の性能を更に評価する。ランダム・フォレスト・サロゲートに基づく手法は特に効率的であり, 探索手法の組み合わせは, 一つの手法のバイアスが軽減されるため, 一般に性能が向上することがわかった。これらの観察から,キャリブレーション実行中の探索手法を自動的に選択し,結合する強化学習(rl)方式を提案する。 RLエージェントは、それが正常に動作し続ける限りのみ、特定のメソッドを利用し続けるが、特定のメソッドがパフォーマンス高原に達すると、新しい戦略を探索する。その結果得られるrl検索方式は、テストされた他の方法やメソッドの組み合わせよりも優れており、事前の情報や試行やエラー手順に依存しない。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文参考訳（メタデータ） (2025-05-12T21:24:22Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-20T04:36:02Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文参考訳（メタデータ） (2024-02-05T22:15:55Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Deep Reinforcement Learning for Exact Combinatorial Optimization: Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文参考訳（メタデータ） (2022-06-14T16:35:58Z)
Reinforcement Learning for Branch-and-Bound Optimisation using Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。我々は現在最先端のRL分岐アルゴリズムを3～5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文参考訳（メタデータ） (2022-05-28T06:08:07Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。 MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。 2つ目はオンライン混合方式である。
論文参考訳（メタデータ） (2022-03-22T18:10:32Z)
Discrete Simulation Optimization for Tuning Machine Learning Method Hyperparameters [0.0]
機械学習(ML)手法は、画像認識、製品レコメンデーション、財務分析、診断、予測保守など、ほとんどの技術領域で使われている。 ML手法を実装する上で重要な側面は,検討中の手法の性能を最大化するために,ML手法の学習過程を制御することである。本研究では、ランキングと選択(R&S)やランダム検索といった離散的なシミュレーション最適化手法を実演する。
論文参考訳（メタデータ） (2022-01-16T06:01:58Z)
A Policy Efficient Reduction Approach to Convex Constrained Deep Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文参考訳（メタデータ） (2021-08-29T20:51:32Z)
On the Efficiency of K-Means Clustering: Evaluation, Optimization, and Algorithm Selection [20.900296096958446]
本稿では,高速k平均クラスタリングのためのロイドのアルゴリズムを高速化する既存の手法について,徹底的な評価を行う。 UniK内では、複数のデータセット上での複数のパフォーマンス指標を用いて、既存のメソッドの長所と短所を徹底的に評価する。我々は、より積極的な刈り取りのために複数の既存手法を効果的にハイブリダイズする、UniK上の最適化アルゴリズムを導出する。
論文参考訳（メタデータ） (2020-10-13T19:45:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。