Fugu-MT 論文翻訳(概要): BQ-NCO: Bisimulation Quotienting for Efficient Neural Combinatorial Optimization

論文の概要: BQ-NCO: Bisimulation Quotienting for Efficient Neural Combinatorial Optimization

arxiv url: http://arxiv.org/abs/2301.03313v3
Date: Thu, 28 Sep 2023 21:06:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 19:27:05.129861
Title: BQ-NCO: Bisimulation Quotienting for Efficient Neural Combinatorial Optimization
Title（参考訳）: BQ-NCO: 効率的なニューラルコンビネーション最適化のためのビシミュレート・クオタイリング
Authors: Darko Drakulic, Sofia Michel, Florian Mai, Arnaud Sors and Jean-Marc Andreoli
Abstract要約: マルコフ決定過程(MDP)としての組合せ最適化問題(COP)の新たな定式化について述べる。本稿では,これらの問題の対称性を活用し,MDPの解法を促進する方法を示す。本稿では, ユークリッドと非対称トラベリングセールスマン, キャパシタン, オリエンテーリング, クナプサックの5つの古典的問題について述べる。
参考スコア（独自算出の注目度）: 1.5806557511612143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the success of neural-based combinatorial optimization methods for end-to-end heuristic learning, out-of-distribution generalization remains a challenge. In this paper, we present a novel formulation of Combinatorial Optimization Problems (COPs) as Markov Decision Processes (MDPs) that effectively leverages common symmetries of COPs to improve out-of-distribution robustness. Starting from a direct MDP formulation of a constructive method, we introduce a generic way to reduce the state space, based on Bisimulation Quotienting (BQ) in MDPs. Then, for COPs with a recursive nature, we specialize the bisimulation and show how the reduced state exploits the symmetries of these problems and facilitates MDP solving. Our approach is principled and we prove that an optimal policy for the proposed BQ-MDP actually solves the associated COPs. We illustrate our approach on five classical problems: the Euclidean and Asymmetric Traveling Salesman, Capacitated Vehicle Routing, Orienteering and Knapsack Problems. Furthermore, for each problem, we introduce a simple attention-based policy network for the BQ-MDPs, which we train by imitation of (near) optimal solutions of small instances from a single distribution. We obtain new state-of-the-art results for the five COPs on both synthetic and realistic benchmarks. Notably, in contrast to most existing neural approaches, our learned policies show excellent generalization performance to much larger instances than seen during training, without any additional search procedure.
Abstract（参考訳）: エンドツーエンドのヒューリスティック学習のためのニューラルネットワークに基づく組合せ最適化手法の成功にもかかわらず、分散の一般化は依然として課題である。本稿では,共同最適化問題(COP)をマルコフ決定過程(MDP)として新たに定式化し,COPの共通対称性を効果的に活用し,分布外ロバスト性を改善する。構成的手法の直接 MDP の定式化から始めて,MDP における Bisimulation Quotienting (BQ) に基づく状態空間の簡易化手法を提案する。そして,再帰的な性質を持つCOPに対して,バイシミュレーションを専門とし,還元状態がこれらの問題の対称性をどのように活用し,MDP解決を促進するかを示す。提案したBQ-MDPに対する最適ポリシーが実際に関連するCOPを解くことを証明する。我々は, ユークリッドと非対称走行セールスマン, キャパシタブル・ルーティング, オリエンテーリング, ナップサック問題という, 5つの古典的な問題に対する我々のアプローチを説明する。さらに,各問題に対して,BQ-MDPに対するシンプルなアテンションベースのポリシーネットワークを導入し,単一分布から小さなインスタンスの(ほぼ)最適解を模倣して学習する。人工的および現実的なベンチマークにおいて,5つのCOPに対する最新の結果を得た。特に、既存のほとんどのニューラルアプローチとは対照的に、我々の学習ポリシーは、追加の探索手順なしで、トレーニング中に見られるよりもはるかに大きなインスタンスに対して優れた一般化性能を示す。

関連論文リスト

Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文参考訳（メタデータ） (2025-02-07T14:30:12Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Semi-Infinitely Constrained Markov Decision Processes and Efficient Reinforcement Learning [17.04643707688075]
通常のCMDPの場合のように、有限個の制約ではなく制約の連続性を考える。我々はSI-CRLとSI-CPOと呼ぶSICMDPのための2つの強化学習アルゴリズムを考案した。我々の知る限り、我々は、制約付き強化学習問題を解決するために、半無限プログラミング(SIP)のツールを最初に適用しました。
論文参考訳（メタデータ） (2023-04-29T12:52:38Z)
Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文参考訳（メタデータ） (2022-03-17T11:19:41Z)
Sequential Information Design: Markov Persuasion Process and Its Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。 MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文参考訳（メタデータ） (2022-02-22T05:41:43Z)
Pretrained Cost Model for Distributed Constraint Optimization Problems [37.79733538931925]
分散制約最適化問題(DCOP)は、最適化問題の重要なサブクラスである。本稿では,DCOPのための新しい非巡回グラフスキーマ表現を提案し,グラフ表現を組み込むためにグラフ注意ネットワーク(GAT)を利用する。我々のモデルであるGAT-PCMは、幅広いDCOPアルゴリズムを向上するために、オフラインで最適なラベル付きデータで事前訓練される。
論文参考訳（メタデータ） (2021-12-08T09:24:10Z)
Efficient semidefinite-programming-based inference for binary and multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文参考訳（メタデータ） (2020-12-04T15:36:29Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文参考訳（メタデータ） (2020-06-22T03:13:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。