論文の概要: An Actor-Critic Method for Simulation-Based Optimization
- arxiv url: http://arxiv.org/abs/2111.00435v1
- Date: Sun, 31 Oct 2021 09:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 09:40:58.354504
- Title: An Actor-Critic Method for Simulation-Based Optimization
- Title(参考訳): シミュレーションに基づく最適化のためのアクタクリティカル法
- Authors: Kuo Li, Qing-Shan Jia, Jiaqi Yan
- Abstract要約: 実現可能な空間から最適な設計を選択するためのシミュレーションに基づく最適化問題に焦点をあてる。
政策探索問題としてサンプリングプロセスを定式化し、強化学習(RL)の観点から解を求める。
いくつかの実験は提案アルゴリズムの有効性を検証するために設計されている。
- 参考スコア(独自算出の注目度): 6.261751912603047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We focus on a simulation-based optimization problem of choosing the best
design from the feasible space. Although the simulation model can be queried
with finite samples, its internal processing rule cannot be utilized in the
optimization process. We formulate the sampling process as a policy searching
problem and give a solution from the perspective of Reinforcement Learning
(RL). Concretely, Actor-Critic (AC) framework is applied, where the Actor
serves as a surrogate model to predict the performance on unknown designs,
whereas the actor encodes the sampling policy to be optimized. We design the
updating rule and propose two algorithms for the cases where the feasible
spaces are continuous and discrete respectively. Some experiments are designed
to validate the effectiveness of proposed algorithms, including two toy
examples, which intuitively explain the algorithms, and two more complex tasks,
i.e., adversarial attack task and RL task, which validate the effectiveness in
large-scale problems. The results show that the proposed algorithms can
successfully deal with these problems. Especially note that in the RL task, our
methods give a new perspective to robot control by treating the task as a
simulation model and solving it by optimizing the policy generating process,
while existing works commonly optimize the policy itself directly.
- Abstract(参考訳): 実現可能な空間から最適設計を選択するためのシミュレーションに基づく最適化問題に着目する。
シミュレーションモデルは有限サンプルでクエリできるが、その内部処理ルールは最適化プロセスでは利用できない。
我々は,このサンプリングプロセスを方針探索問題として定式化し,強化学習(rl)の観点から解を与える。
具体的には Actor-Critic (AC) フレームワークが適用され、アクターは未知の設計の性能を予測する代理モデルとして機能し、アクターはサンプリングポリシーを符号化する。
更新ルールを設計し,実現可能な空間がそれぞれ連続かつ個別である場合の2つのアルゴリズムを提案する。
提案されたアルゴリズムの有効性を検証するために設計された実験は、直感的にアルゴリズムを説明する2つのおもちゃの例と、大規模問題の有効性を検証する2つのより複雑なタスク、すなわち敵攻撃タスクとRLタスクである。
その結果,提案アルゴリズムはこれらの問題に対処できることがわかった。
特に,RLタスクでは,タスクをシミュレーションモデルとして扱い,ポリシ生成プロセスの最適化によって解決することで,ロボット制御に対する新たな視点を提供する一方で,既存の作業はポリシ自体を直接最適化する。
関連論文リスト
- Primitive Agentic First-Order Optimization [0.0]
本研究では,一階強化学習として,原始状態表現とエージェント環境相互作用を組み合わせた概念実証研究を提案する。
その結果,RLに基づく最適化では,基本的RL法と簡潔な部分的状態表現を組み合わせることで,複雑性の管理を最適化できることがわかった。
論文 参考訳(メタデータ) (2024-06-07T11:13:38Z) - Model Uncertainty in Evolutionary Optimization and Bayesian Optimization: A Comparative Analysis [5.6787965501364335]
ブラックボックス最適化問題は、多くの現実世界のアプリケーションで一般的な問題である。
これらの問題はインプット・アウトプット・インタラクションを通じて内部動作へのアクセスなしに最適化する必要がある。
このような問題に対処するために2つの広く使われている勾配のない最適化手法が用いられている。
本稿では,2つの手法間のモデル不確実性の類似点と相違点を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-03-21T13:59:19Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Efficient Inverse Design Optimization through Multi-fidelity Simulations, Machine Learning, and Search Space Reduction Strategies [0.8646443773218541]
本稿では,限られた計算量で制約されたシナリオにおける逆設計最適化プロセスの拡張を目的とした手法を提案する。
提案手法はエアフォイル逆設計とスカラーフィールド再構成の2つの異なる工学的逆設計問題について解析する。
特に、この方法は、任意の逆設計アプリケーションに適用可能であり、代表的低忠実MLモデルと高忠実度シミュレーションの相乗効果を容易にし、様々な集団ベース最適化アルゴリズムにシームレスに適用することができる。
論文 参考訳(メタデータ) (2023-12-06T18:20:46Z) - DADO -- Low-Cost Query Strategies for Deep Active Design Optimization [1.6298921134113031]
我々は,多目的設計最適化問題における計算コストを削減するために,自己最適化のための2つの選択戦略を提案する。
我々は流体力学の領域から大規模データセットの戦略を評価し、モデルの性能を決定するために2つの新しい評価指標を導入する。
論文 参考訳(メタデータ) (2023-07-10T13:01:27Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Optimizing Sequential Experimental Design with Deep Reinforcement
Learning [7.589363597086081]
我々は、ポリシーを最適化する問題は、マルコフ決定プロセス(MDP)の解決に還元できることを示した。
また,本手法はデプロイ時に計算効率が高く,連続的かつ離散的な設計空間上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-02-02T00:23:05Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。