Fugu-MT 論文翻訳(概要): Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization

論文の概要: Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization

arxiv url: http://arxiv.org/abs/2406.16424v1
Date: Mon, 24 Jun 2024 08:18:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 15:43:33.459029
Title: Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization
Title（参考訳）: 組合せ最適化における効率的な適応のためのメモリ拡張型ニューラルソルバー
Authors: Felix Chalumeau, Refiloe Shabe, Noah de Nicola, Arnu Pretorius, Thomas D. Barrett, Nathan Grinsztajn,
Abstract要約: 本稿では、メモリを活用するRLアプローチであるMementOについて述べる。本稿では,特にTraveing SalesmanとCapacitated Vehicle Routingのベンチマーク問題に対する有効性を検証する。
参考スコア（独自算出の注目度）: 6.713974813995327
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Combinatorial Optimization is crucial to numerous real-world applications, yet still presents challenges due to its (NP-)hard nature. Amongst existing approaches, heuristics often offer the best trade-off between quality and scalability, making them suitable for industrial use. While Reinforcement Learning (RL) offers a flexible framework for designing heuristics, its adoption over handcrafted heuristics remains incomplete within industrial solvers. Existing learned methods still lack the ability to adapt to specific instances and fully leverage the available computational budget. The current best methods either rely on a collection of pre-trained policies, or on data-inefficient fine-tuning; hence failing to fully utilize newly available information within the constraints of the budget. In response, we present MEMENTO, an RL approach that leverages memory to improve the adaptation of neural solvers at inference time. MEMENTO enables updating the action distribution dynamically based on the outcome of previous decisions. We validate its effectiveness on benchmark problems, in particular Traveling Salesman and Capacitated Vehicle Routing, demonstrating it can successfully be combined with standard methods to boost their performance under a given budget, both in and out-of-distribution, improving their performance on all 12 evaluated tasks.
Abstract（参考訳）: Combinatorial Optimizationは、多くの現実世界のアプリケーションにとって不可欠だが、NP-のハードな性質のため、依然として課題を呈している。既存のアプローチの中で、ヒューリスティックスは品質とスケーラビリティの最良のトレードオフを提供し、産業用途に適している。強化学習(Reinforcement Learning, RL)はヒューリスティックを設計するための柔軟なフレームワークを提供するが、手作りヒューリスティックよりもそれを採用することは、産業用ソルバでは不完全なままである。既存の学習方法には、特定のインスタンスに適応し、利用可能な計算予算を完全に活用する能力がない。現在のベストプラクティスは、事前訓練されたポリシーの収集か、データ非効率な微調整に依存しているため、予算の制約の中で新たに利用可能な情報を十分に活用できない。そこで,本論文では,メモリを活用するRLアプローチであるMementOを提案し,推論時間におけるニューラルソルバの適応性を改善する。 MementOは、以前の決定結果に基づいて動的にアクション分布を更新できる。本稿では,特にTraveing SalesmanとCapacitated Vehicle Routingのベンチマーク問題に対する有効性を検証するとともに,標準手法と組み合わせて,所定の予算下での性能向上を図ることを実証した。

関連論文リスト

Optimizers Qualitatively Alter Solutions And We Should Leverage This [62.662640460717476]
ディープニューラルネットワーク(DNN)は、SGDのようなローカル情報のみを使用する場合、損失のグローバルな最小限に収束することを保証できない。コミュニティは、既存のメソッドのバイアスを理解すること、また、ソリューションの特定の特性を誘発する明示的な意図で、新しいDNNを構築することを目的としている。
論文参考訳（メタデータ） (2025-07-16T13:33:31Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Towards More Efficient, Robust, Instance-adaptive, and Generalizable Sequential Decision making [9.955716251167424]
私の仕事は強化学習(RL)、多腕バンディット、その応用に焦点を当てています。私の研究は、より効率的で堅牢で、インスタンス適応的で、一般化可能なシーケンシャルな意思決定アルゴリズムを開発することを目的としています。
論文参考訳（メタデータ） (2025-04-12T12:17:20Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
Instance-Conditioned Adaptation for Large-scale Generalization of Neural Combinatorial Optimization [15.842155380912002]
本研究は,ニューラル最適化の大規模一般化のための新しいインスタンス・コンディション適応モデル(ICAM)を提案する。特に,NCOモデルのための強力なインスタンス条件付きルーティング適応モジュールを設計する。我々は,ラベル付き最適解を使わずに,モデルがクロススケールな特徴を学習することのできる,効率的な3段階強化学習ベーストレーニング手法を開発した。
論文参考訳（メタデータ） (2024-05-03T08:00:19Z)
Self-Improved Learning for Scalable Neural Combinatorial Optimization [15.842155380912002]
本研究は、ニューラルネットワーク最適化のスケーラビリティを向上させるための新しい自己改善学習(SIL)手法を提案する。我々は,ラベル付きデータを使わずに大規模問題インスタンス上での直接モデルトレーニングを可能にする,効率的な自己改善機構を開発した。さらに,計算モデルに対する線形注意複雑化機構を設計し,オーバヘッドの少ない大規模問題インスタンスを効率的に処理する。
論文参考訳（メタデータ） (2024-03-28T16:46:53Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
Data-Driven Offline Decision-Making via Invariant Representation Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文参考訳（メタデータ） (2022-11-21T11:01:37Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文参考訳（メタデータ） (2022-10-06T11:06:39Z)
A Transferable and Automatic Tuning of Deep Reinforcement Learning for Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。 Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文参考訳（メタデータ） (2022-09-19T14:09:07Z)
A Meta Reinforcement Learning Approach for Predictive Autoscaling in the Cloud [10.970391043991363]
本稿では,CPU利用の安定レベルを維持するために資源を最適に割り当てることを目的とした,エンドツーエンドのメタモデルに基づくRLアルゴリズムを提案する。当社のアルゴリズムは,スケーリング戦略の予測可能性と精度を確保するだけでなく,スケーリング決定が変化するワークロードに高いサンプル効率で適応できるようにする。
論文参考訳（メタデータ） (2022-05-31T13:54:04Z)
Deep Policy Iteration with Integer Programming for Inventory Management [8.27175065641495]
本稿では,大規模なアクセス可能な行動空間と状態依存制約を用いた長期割引報酬問題を最適化するための枠組みを提案する。提案したプログラム可能なアクター強化学習(PARL)は,ニューラルネットワーク(NN)を利用して値関数を近似するディープ・ポリシー法を用いる。我々は、提案アルゴリズムを最先端のRLアルゴリズムに対してベンチマークし、一般的に補充を使い、既存の手法を平均14.7%も上回っていることを発見した。
論文参考訳（メタデータ） (2021-12-04T01:40:34Z)
Optimizing Wireless Systems Using Unsupervised and Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文参考訳（メタデータ） (2020-01-03T11:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。