論文の概要: Position: Adopt Constraints Over Penalties in Deep Learning
- arxiv url: http://arxiv.org/abs/2505.20628v1
- Date: Tue, 27 May 2025 02:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.346719
- Title: Position: Adopt Constraints Over Penalties in Deep Learning
- Title(参考訳): 深層学習におけるペナルティに対する適用制限
- Authors: Juan Ramirez, Meraj Hashemizadeh, Simon Lacoste-Julien,
- Abstract要約: 説明責任保証を備えたAIシステム開発への最近の取り組みは、外部要求を組み込んだ機械学習の定式化への依存度を高めている。
我々は、代わりに調整された制約付き最適化手法を採用するべきだと論じる。
- 参考スコア(独自算出の注目度): 18.228634659355958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts toward developing trustworthy AI systems with accountability guarantees have led to a growing reliance on machine learning formulations that incorporate external requirements, or constraints. These requirements are often enforced through penalization--adding fixed-weight terms to the task loss. We argue that this approach is ill-suited, and that tailored constrained optimization methods should be adopted instead. In particular, no penalty coefficient may yield a solution that both satisfies the constraints and achieves good performance--i.e., one solving the constrained problem. Moreover, tuning these coefficients is costly, incurring significant time and computational overhead. In contrast, tailored constrained methods--such as the Lagrangian approach, which optimizes the penalization "coefficients" (the Lagrange multipliers) alongside the model--(i) truly solve the constrained problem and add accountability, (ii) eliminate the need for extensive penalty tuning, and (iii) integrate seamlessly with modern deep learning pipelines.
- Abstract(参考訳): 説明責任保証を備えた信頼性の高いAIシステム開発への最近の取り組みは、外部要件や制約を含む機械学習の定式化への依存度を高めている。
これらの要件は、しばしばペナル化によって実施される。
我々は、このアプローチは不適当であり、代わりに調整された制約付き最適化手法を採用するべきであると論じる。
特に、ペナルティ係数は、制約を満たすソリューション、すなわち、制約された問題を解くための良いパフォーマンスを達成することができません。さらに、これらの係数のチューニングはコストがかかり、時間と計算上のオーバーヘッドが大幅に増大します。対照的に、ラグランジアンアプローチのように、モデルとともにペナル化の「係数」(ラグランジュ乗算器)を最適化します。
(i) 制約された問題を真に解決し、説明責任を加える。
(二)広範な刑罰調律の必要性を排除し、
(iii)現代のディープラーニングパイプラインとシームレスに統合する。
関連論文リスト
- Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。
既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。
これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:48Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - A Penalty-Based Guardrail Algorithm for Non-Decreasing Optimization with Inequality Constraints [1.5498250598583487]
伝統的な数学的プログラミングの解法は制約付き最小化問題を解くのに長い計算時間を必要とする。
ペナルティに基づくガードレールアルゴリズム(PGA)を提案する。
論文 参考訳(メタデータ) (2024-05-03T10:37:34Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Primal-Dual Contextual Bayesian Optimization for Control System Online
Optimization with Time-Average Constraints [21.38692458445459]
本稿では,制約付き閉ループ制御システムのオンライン性能最適化問題について検討する。
動的最適解に対する線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-12T18:37:52Z) - Algorithm for Constrained Markov Decision Process with Linear
Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。
エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。
提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文 参考訳(メタデータ) (2022-06-03T16:26:38Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Constrained Reinforcement Learning for Dynamic Optimization under
Uncertainty [1.5797349391370117]
動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。
DRTOの産業応用における主要なボトルネックは、不確実性の存在である。
これらの課題に対応するために,制約付き強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-04T10:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。