論文の概要: Pseudo-Adaptive Penalization to Handle Constraints in Particle Swarm
Optimizers
- arxiv url: http://arxiv.org/abs/2101.11441v1
- Date: Mon, 25 Jan 2021 10:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 00:22:40.428455
- Title: Pseudo-Adaptive Penalization to Handle Constraints in Particle Swarm
Optimizers
- Title(参考訳): 粒子群最適化器の制約に対する擬似適応的罰則
- Authors: Mauro S. Innocente, Johann Sienz
- Abstract要約: ペナライズ法は、制約に対処する能力を持つ粒子群を提供する一般的な手法である。
欠点は、設定が問題固有のペナライズ係数の必要性である。
制約違反に対する許容性の擬似適応緩和は、そのような許容性を超えた違反のみを罰する一方で、擬似適応的ペナル化をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The penalization method is a popular technique to provide particle swarm
optimizers with the ability to handle constraints. The downside is the need of
penalization coefficients whose settings are problem-specific. While adaptive
coefficients can be found in the literature, a different adaptive scheme is
proposed in this paper, where coefficients are kept constant. A pseudo-adaptive
relaxation of the tolerances for constraint violations while penalizing only
violations beyond such tolerances results in a pseudo-adaptive penalization. A
particle swarm optimizer is tested on a suite of benchmark problems for three
types of tolerance relaxation: no relaxation; self-tuned initial relaxation
with deterministic decrease; and self-tuned initial relaxation with
pseudo-adaptive decrease. Other authors' results are offered as frames of
reference.
- Abstract(参考訳): ペナライズ法は、制約を処理できる粒子群最適化器を提供する一般的な手法である。
欠点は、設定が問題固有のペナル化係数の必要性である。
適応係数は文献で見られるが,本論文では,係数を一定に保つための異なる適応スキームが提案されている。
制約違反に対する耐性を擬似適応緩和する一方で、そのような許容を超える違反のみを罰することは、擬似適応的ペナリゼーションをもたらす。
粒子群オプティマイザは3種類の耐性緩和のための一連のベンチマーク問題(緩和なし、決定論的減少を伴う自己調整初期緩和、擬適応的減少を伴う自己調整初期緩和)で試験される。
他の著者の結果は参照のフレームとして提供される。
関連論文リスト
- Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Beyond Primal-Dual Methods in Bandits with Stochastic and Adversarial Constraints [29.514323697659613]
我々は,学習者が任意の長期制約を満たすことなく報酬を最大化することを目的とした,knapsacks問題によるバンディットの一般化に対処する。
私たちのゴールは、双方の制約の下で機能するベスト・オブ・ザ・ワールドのアルゴリズムを設計することです。
論文 参考訳(メタデータ) (2024-05-25T08:09:36Z) - C-Learner: Constrained Learning for Causal Inference and Semiparametric Statistics [5.395560682099634]
そこで本研究では,安定なプラグイン推定を望ましい特性で実現する新しいデバイアス推定器を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
我々の推定器は、処理と制御の重複が限定された挑戦的な環境での一段階推定と目標を上回り、それ以外は比較可能である。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Online Constraint Tightening in Stochastic Model Predictive Control: A
Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。
制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。
提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文 参考訳(メタデータ) (2023-10-04T16:22:02Z) - Nonparametric estimation of a covariate-adjusted counterfactual
treatment regimen response curve [2.7446241148152253]
治療体制下での平均結果を柔軟に推定することは、パーソナライズされた医療にとって重要なステップである。
本研究では,スムーズな規則応答曲線関数の逆確率重み付き非パラメトリック効率推定器を提案する。
いくつかの有限サンプル特性はシミュレーションによって探索される。
論文 参考訳(メタデータ) (2023-09-28T01:46:24Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - The Devil is in the Margin: Margin-based Label Smoothing for Network
Calibration [21.63888208442176]
ディープニューラルネットワークの優位な性能にもかかわらず、最近の研究では、それらが十分に校正されていないことが示されている。
現状のキャリブレーション損失に対する統一的制約最適化の視点を提供する。
我々は不等式制約に基づく単純で柔軟な一般化を提案し、ロジット距離に制御可能なマージンを課す。
論文 参考訳(メタデータ) (2021-11-30T14:21:47Z) - Regret-Optimal Filtering [57.51328978669528]
後悔最適化レンズによる線形状態空間モデルにおけるフィルタの問題を検討する。
我々は, 透視推定器の誤差エネルギー推定における後悔の概念に基づいて, フィルタ設計のための新しい基準を定式化する。
3つのリッキー方程式と1つのリャプノフ方程式を解くことで、後悔と最適推定が容易に実現できることを示す。
論文 参考訳(メタデータ) (2021-01-25T19:06:52Z) - Reliable Categorical Variational Inference with Mixture of Discrete
Normalizing Flows [10.406659081400354]
変分近似は、サンプリングによって推定される予測の勾配に基づく最適化に基づいている。
カテゴリー分布のGumbel-Softmaxのような連続緩和は勾配に基づく最適化を可能にするが、離散的な観測のために有効な確率質量を定義しない。
実際には、緩和の量を選択することは困難であり、望ましいものと一致しない目的を最適化する必要がある。
論文 参考訳(メタデータ) (2020-06-28T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。