論文の概要: Scaling Combinatorial Optimization Neural Improvement Heuristics with Online Search and Adaptation
- arxiv url: http://arxiv.org/abs/2412.10163v1
- Date: Fri, 13 Dec 2024 14:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:37:48.9928
- Title: Scaling Combinatorial Optimization Neural Improvement Heuristics with Online Search and Adaptation
- Title(参考訳): オンライン検索と適応による組合せ最適化ニューラル改善ヒューリスティックスのスケーリング
- Authors: Federico Julian Camerota Verdù, Lorenzo Castelli, Luca Bortolussi,
- Abstract要約: リミテッドロールアウトビームサーチ(Limited Rollout Beam Search, LRBS)を導入する。
LRBSは, 分散性能と大規模問題インスタンスへの一般化の両方を著しく向上させることを示す。
また、事前訓練された改善ポリシーのオフラインおよびオンライン適応に検索戦略を採用し、検索性能を向上させる。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Limited Rollout Beam Search (LRBS), a beam search strategy for deep reinforcement learning (DRL) based combinatorial optimization improvement heuristics. Utilizing pre-trained models on the Euclidean Traveling Salesperson Problem, LRBS significantly enhances both in-distribution performance and generalization to larger problem instances, achieving optimality gaps that outperform existing improvement heuristics and narrowing the gap with state-of-the-art constructive methods. We also extend our analysis to two pickup and delivery TSP variants to validate our results. Finally, we employ our search strategy for offline and online adaptation of the pre-trained improvement policy, leading to improved search performance and surpassing recent adaptive methods for constructive heuristics.
- Abstract(参考訳): リミテッドロールアウトビームサーチ(Limited Rollout Beam Search, LRBS)を導入する。
ユークリッド旅行セールスパーソン問題(英語版)における事前学習モデルを利用することで、LRBSは分配性能とより大きな問題インスタンスへの一般化の両方を著しく向上させ、既存の改善ヒューリスティックスを上回る最適性ギャップを達成し、最先端の建設手法とのギャップを狭める。
また、分析結果を2種類のTSP変種に拡張し、その結果を検証した。
最後に、事前訓練された改善政策のオフラインおよびオンライン適応に検索戦略を採用し、検索性能の向上と最近の建設的ヒューリスティックスへの適応手法を超越した。
関連論文リスト
- Advancing CMA-ES with Learning-Based Cooperative Coevolution for Scalable Optimization [12.899626317088885]
本稿では,先駆的な学習に基づく協調的共進化フレームワークであるLCCを紹介する。
LCCは最適化プロセス中に動的に分解戦略をスケジュールする。
最適化の効率性とリソース消費の観点からは、最先端のベースラインに対して、ある種のアドバンテージを提供する。
論文 参考訳(メタデータ) (2025-04-24T14:09:22Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。
L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。
そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文 参考訳(メタデータ) (2025-03-14T14:48:12Z) - BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization [17.694852175354555]
Preference Optimization for Combinatorial Optimization (POCO) は、目的値を介してソリューションの選好を利用する訓練パラダイムである。
POCOはアーキテクチャに依存しないため、既存のNCOモデルとの統合を可能にし、最適化の原則として好みの最適化を確立する。
論文 参考訳(メタデータ) (2025-03-10T17:45:30Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Primitive Agentic First-Order Optimization [0.0]
本研究では,一階強化学習として,原始状態表現とエージェント環境相互作用を組み合わせた概念実証研究を提案する。
その結果,RLに基づく最適化では,基本的RL法と簡潔な部分的状態表現を組み合わせることで,複雑性の管理を最適化できることがわかった。
論文 参考訳(メタデータ) (2024-06-07T11:13:38Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization [42.92248233465095]
本稿では,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,オンラインインタラクションを伴わない対称領域の探索を促進するために,高解像度サンプルを活用する。
実世界のタスクに適用した多種多様なDRL法に対して,本手法を一貫したサンプル効率向上効果を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-02T05:34:01Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning [4.374837991804085]
DR-ALNSと呼ばれる深層強化学習に基づくアプローチを導入し、演算子を選択し、パラメータを調整し、検索全体を通して受け入れ基準を制御する。
提案手法は,IJCAIコンペティションで提示されたオリエンテーリングウェイトと時間窓の問題に対して評価する。
その結果,本手法はバニラALNSよりも優れており,ALNSはベイジアン最適化と2つの最先端DRLアプローチに適合していることがわかった。
論文 参考訳(メタデータ) (2022-11-01T21:33:46Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。