論文の概要: Black-Box Combinatorial Optimization with Order-Invariant Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.01824v1
- Date: Thu, 02 Oct 2025 09:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.069448
- Title: Black-Box Combinatorial Optimization with Order-Invariant Reinforcement Learning
- Title(参考訳): 順序不変強化学習を用いたブラックボックス組合せ最適化
- Authors: Olivier Goudet, Quentin Suire, Adrien Goëffon, Frédéric Saubion, Sylvain Lamprier,
- Abstract要約: ブラックボックス最適化のための順序不変強化学習フレームワークを提案する。
固定変数順序付けなしで訓練された多変量自己回帰生成モデルのパラメータ化を行う。
我々は、この設定に一般化強化政策最適化(GRPO)を適用し、スケール不変の利点から安定した政策段階の更新を提供する。
- 参考スコア(独自算出の注目度): 9.588315721253169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an order-invariant reinforcement learning framework for black-box combinatorial optimization. Classical estimation-of-distribution algorithms (EDAs) often rely on learning explicit variable dependency graphs, which can be costly and fail to capture complex interactions efficiently. In contrast, we parameterize a multivariate autoregressive generative model trained without a fixed variable ordering. By sampling random generation orders during training - a form of information-preserving dropout - the model is encouraged to be invariant to variable order, promoting search-space diversity and shaping the model to focus on the most relevant variable dependencies, improving sample efficiency. We adapt Generalized Reinforcement Policy Optimization (GRPO) to this setting, providing stable policy-gradient updates from scale-invariant advantages. Across a wide range of benchmark algorithms and problem instances of varying sizes, our method frequently achieves the best performance and consistently avoids catastrophic failures.
- Abstract(参考訳): ブラックボックス組合せ最適化のための順序不変強化学習フレームワークを提案する。
古典的な分布推定アルゴリズム(EDAs)は、しばしば明示的な変数依存グラフの学習に頼っている。
対照的に、固定変数順序付けなしで訓練された多変量自己回帰生成モデルをパラメータ化する。
トレーニング中のランダムな生成順序(情報保存ドロップアウトの形式)をサンプリングすることで、モデルは可変順序に不変であることが奨励され、検索空間の多様性を促進し、最も関連する変数依存にフォーカスするようにモデルを形作る。
我々は、この設定に一般化強化政策最適化(GRPO)を適用し、スケール不変の利点から安定した政策段階の更新を提供する。
幅広いベンチマークアルゴリズムと様々なサイズの問題事例に対して,本手法は最高の性能を達成し,破滅的な失敗を継続的に回避する。
関連論文リスト
- MIBoost: A Gradient Boosting Algorithm for Variable Selection After Multiple Imputation [0.0]
実際には、分析は欠落データによって複雑になることが多い。
提案するMIBoostは,命令付きデータセット間で均一な可変選択機構を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-29T13:42:38Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - A Variational Inference Approach to Inverse Problems with Gamma
Hyperpriors [60.489902135153415]
本稿では,ガンマハイパープライヤを用いた階層的逆問題に対する変分反復交替方式を提案する。
提案した変分推論手法は正確な再構成を行い、意味のある不確実な定量化を提供し、実装が容易である。
論文 参考訳(メタデータ) (2021-11-26T06:33:29Z) - Leveraging Recursive Gumbel-Max Trick for Approximate Inference in
Combinatorial Spaces [4.829821142951709]
構造化潜在変数は、深層学習モデルに意味のある事前知識を組み込むことができる。
標準的な学習手法は、潜伏変数をアルゴリズム出力として定義し、訓練に微分可能な代理語を使用することである。
我々は、Gumbel-Maxトリックを拡張して、構造化領域上の分布を定義する。
論文 参考訳(メタデータ) (2021-10-28T12:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。