論文の概要: Conditional Policy Generator for Dynamic Constraint Satisfaction and Optimization
- arxiv url: http://arxiv.org/abs/2509.17205v1
- Date: Sun, 21 Sep 2025 19:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.164135
- Title: Conditional Policy Generator for Dynamic Constraint Satisfaction and Optimization
- Title(参考訳): 動的制約満足度と最適化のための条件付きポリシー生成装置
- Authors: Wook Lee, Frans A. Oliehoek,
- Abstract要約: 動的に変化する環境における制約満足度と最適化に対する新しいアプローチを提案する。
我々は、これを強化学習問題とみなし、クラス条件生成逆ネットワーク(GAN)の概念を借用して条件付きポリシー生成を導入する。
マルチモーダル制約満足度問題を用いた実証実験を実証的に実施し, 条件付きケースと条件付きケースの比較を行った。
- 参考スコア(独自算出の注目度): 8.466660421475295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging machine learning methods to solve constraint satisfaction problems has shown promising, but they are mostly limited to a static situation where the problem description is completely known and fixed from the beginning. In this work we present a new approach to constraint satisfaction and optimization in dynamically changing environments, particularly when variables in the problem are statistically independent. We frame it as a reinforcement learning problem and introduce a conditional policy generator by borrowing the idea of class conditional generative adversarial networks (GANs). Assuming that the problem includes both static and dynamic constraints, the former are used in a reward formulation to guide the policy training such that it learns to map to a probabilistic distribution of solutions satisfying static constraints from a noise prior, which is similar to a generator in GANs. On the other hand, dynamic constraints in the problem are encoded to different class labels and fed with the input noise. The policy is then simultaneously updated for maximum likelihood of correctly classifying given the dynamic conditions in a supervised manner. We empirically demonstrate a proof-of-principle experiment with a multi-modal constraint satisfaction problem and compare between unconditional and conditional cases.
- Abstract(参考訳): 制約満足度問題を解決するために機械学習手法を活用することは有望であるが、それらは主に、問題の記述が完全に知られ、最初から固定されている静的な状況に限られている。
本研究では,動的に変化する環境における制約満足度と最適化に対する新しいアプローチを提案する。
我々は、これを強化学習問題とみなし、クラス条件生成逆ネットワーク(GAN)の概念を借用して条件付きポリシー生成を導入する。
この問題が静的制約と動的制約の両方を含むと仮定すると、前者は報酬の定式化において、GANのジェネレータに類似した雑音から静的制約を満たす解の確率分布にマップするように、ポリシートレーニングを導出するために使用される。
一方、問題の動的制約は、異なるクラスラベルに符号化され、入力ノイズで入力される。
ポリシーは同時に更新され、教師付き方式で動的条件が与えられた場合、正しい分類が可能となる。
マルチモーダル制約満足度問題を用いた実証実験を実証的に実施し, 条件付きケースと条件付きケースの比較を行った。
関連論文リスト
- Algorithmic Fairness: A Runtime Perspective [6.409194734638881]
本稿では、フェアネスをランタイムプロパティとして分析するためのフレームワークを提案する。
本研究では, 不正な結果やコインバイアスに表される公正性を監視し, 強制することの問題点について検討する。
論文 参考訳(メタデータ) (2025-07-28T11:04:17Z) - Learning Constraint Network from Demonstrations via Positive-Unlabeled Learning with Memory Replay [8.361428709513476]
本稿では,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
提案手法の有効性を2つのMujoco環境で検証した。
論文 参考訳(メタデータ) (2024-07-23T14:00:18Z) - Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning [25.342811509665097]
強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-26T15:57:20Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Maximum Causal Entropy Inverse Constrained Reinforcement Learning [3.409089945290584]
本稿では,最大因果エントロピーの原理を用いて制約と最適ポリシーを学習する手法を提案する。
得られた報酬と制約違反数を評価することで,学習方針の有効性を評価する。
本手法は様々なタスクや環境にまたがって最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-04T14:18:19Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。