論文の概要: Self-Supervised Primal-Dual Learning for Constrained Optimization
- arxiv url: http://arxiv.org/abs/2208.09046v1
- Date: Thu, 18 Aug 2022 20:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:34:44.289777
- Title: Self-Supervised Primal-Dual Learning for Constrained Optimization
- Title(参考訳): 制約付き最適化のための自己教師付きPrimal-Dual Learning
- Authors: Seonho Park, Pascal Van Hentenryck
- Abstract要約: 本稿では,制約付き最適化問題の最適解を直接近似する機械学習モデルの訓練方法を検討する。
プリマル・デュアル・ラーニング(PDL, Primal-Dual Learning)は,事前解決した一連のインスタンスや,学習と推論のための最適化解法を必要としない自己指導型トレーニング手法である。
- 参考スコア(独自算出の注目度): 19.965556179096385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies how to train machine-learning models that directly
approximate the optimal solutions of constrained optimization problems. This is
an empirical risk minimization under constraints, which is challenging as
training must balance optimality and feasibility conditions. Supervised
learning methods often approach this challenge by training the model on a large
collection of pre-solved instances. This paper takes a different route and
proposes the idea of Primal-Dual Learning (PDL), a self-supervised training
method that does not require a set of pre-solved instances or an optimization
solver for training and inference. Instead, PDL mimics the trajectory of an
Augmented Lagrangian Method (ALM) and jointly trains primal and dual neural
networks. Being a primal-dual method, PDL uses instance-specific penalties of
the constraint terms in the loss function used to train the primal network.
Experiments show that, on a set of nonlinear optimization benchmarks, PDL
typically exhibits negligible constraint violations and minor optimality gaps,
and is remarkably close to the ALM optimization. PDL also demonstrated improved
or similar performance in terms of the optimality gaps, constraint violations,
and training times compared to existing approaches.
- Abstract(参考訳): 本稿では,制約付き最適化問題の最適解を直接近似する機械学習モデルの訓練方法を検討する。
これは制約の下での実証的なリスク最小化であり、トレーニングは最適性と実現可能性条件のバランスをとる必要があるため、難しい。
教師付き学習手法は、事前に解決された多数のインスタンスでモデルをトレーニングすることで、この課題にアプローチすることが多い。
本稿では,事前解決したインスタンスのセットや,学習と推論のための最適化解法を必要としない自己指導型学習手法であるPDL(Primal-Dual Learning)を提案する。
代わりに、PDLは拡張ラグランジアン法(ALM)の軌道を模倣し、原始ニューラルネットワークと双対ニューラルネットワークを共同で訓練する。
原始双対法であるPDLは、原始ネットワークのトレーニングに使用される損失関数における制約項のインスタンス固有のペナルティを使用する。
実験により、一連の非線形最適化ベンチマークにおいて、PDLは通常無視可能な制約違反と小さな最適性ギャップを示し、ALM最適化に非常に近いことが示されている。
PDLはまた、既存のアプローチと比較して、最適性ギャップ、制約違反、トレーニング時間の観点から改善または類似した性能を示した。
関連論文リスト
- One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - SOMTP: Self-Supervised Learning-Based Optimizer for MPC-Based Safe Trajectory Planning Problems in Robotics [13.129654942805846]
モデル予測制御(MP)に基づく軌道計画が広く使われており、制御バリア(CBF)はその制約を改善することができる。
本稿では,CBF-MPC軌道計画のための自己教師付き学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-15T09:38:52Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - CaVE: A Cone-Aligned Approach for Fast Predict-then-optimize with Binary Linear Programs [23.00554768496448]
本研究はバイナリ線形プログラム(BLP)に焦点をあて,予測最適化のための新たなエンドツーエンドトレーニング手法を提案する。
コーン整列ベクトル推定法 (CaVE) は, 予測コストベクトルをトレーニングインスタンスの真の最適解に対応する正規コーンと整列する。
論文 参考訳(メタデータ) (2023-12-12T20:24:19Z) - Self-Supervised Learning for Large-Scale Preventive Security Constrained DC Optimal Power Flow [20.078717680640214]
SCOPF(Security-Constrained Optimal Power Flow)は、電力グリッドの安定性において重要な役割を果たすが、システムが成長するにつれてますます複雑になる。
本稿では,大規模SCOPF問題に対する準最適解を生成するための,自己教師付きエンドツーエンドのPDL-SCOPFについて紹介する。
論文 参考訳(メタデータ) (2023-11-29T20:36:35Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z) - Careful! Training Relevance is Real [0.7742297876120561]
我々は、トレーニングの妥当性を強制するために設計された制約を提案する。
提案した制約を加えることで,ソリューションの品質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-01-12T11:54:31Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。