論文の概要: Offline Decision Transformers for Neural Combinatorial Optimization: Surpassing Heuristics on the Traveling Salesman Problem
- arxiv url: http://arxiv.org/abs/2603.25241v1
- Date: Thu, 26 Mar 2026 09:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.219826
- Title: Offline Decision Transformers for Neural Combinatorial Optimization: Surpassing Heuristics on the Traveling Salesman Problem
- Title(参考訳): ニューラルコンビネーション最適化のためのオフライン決定変換器:トラベリングセールスマン問題に対するヒューリスティックスを克服する
- Authors: Hironori Ohigashi, Shinichiro Hamada,
- Abstract要約: Neural Combinatorial Optimizationは有望だが、オンライン強化学習のハッパーの展開に依存しており、何十年ものアルゴリズムの知識を過小評価している。
オフラインのRLフレームワークであるDecision Transformerを適用して、データセットから直接優れた戦略を学習することで、これらの制限に対処する。
提案手法は,従来の4つのツアーよりも高品質なツアーを連続的に生成し,既存のドメイン知識に埋め込まれたパフォーマンスを超えるオフラインRLの可能性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Combinatorial optimization problems like the Traveling Salesman Problem are critical in industry yet NP-hard. Neural Combinatorial Optimization has shown promise, but its reliance on online reinforcement learning (RL) hampers deployment and underutilizes decades of algorithmic knowledge. We address these limitations by applying the offline RL framework, Decision Transformer, to learn superior strategies directly from datasets of heuristic solutions; it aims to not only to imitate but to synthesize and outperform them. Concretely, we (i) integrate a Pointer Network to handle the instance-dependent, variable action space of node selection, and (ii) employ expectile regression for optimistic conditioning of Return-to-Go, which is crucial for instances with widely varying optimal values. Experiments show that our method consistently produces higher-quality tours than the four classical heuristics it is trained on, demonstrating the potential of offline RL to unlock and exceed the performance embedded in existing domain knowledge.
- Abstract(参考訳): トラベルセールスマン問題のような組合せ最適化問題は、業界では依然としてNPハードである。
Neural Combinatorial Optimizationは将来性を示しているが、オンライン強化学習(RL)によるハマーの展開に依存し、何十年ものアルゴリズム知識を過小評価している。
オフラインのRLフレームワークであるDecision Transformerを適用して、ヒューリスティックなソリューションのデータセットから直接優れた戦略を学ぶことで、これらの制限に対処する。
具体的には
i)Pointer Networkを統合して、ノード選択のインスタンス依存の可変アクション空間を処理し、
(II)Return-to-Goの楽観的条件付けに期待回帰を用いる。
実験により,本手法は学習対象とする4つの古典的ヒューリスティックよりも高品質なツアーを連続的に生成し,既存のドメイン知識に埋め込まれた性能を超えるオフラインRLの可能性を示す。
関連論文リスト
- Optimizers Qualitatively Alter Solutions And We Should Leverage This [62.662640460717476]
ディープニューラルネットワーク(DNN)は、SGDのようなローカル情報のみを使用する場合、損失のグローバルな最小限に収束することを保証できない。
コミュニティは、既存のメソッドのバイアスを理解すること、また、ソリューションの特定の特性を誘発する明示的な意図で、新しいDNNを構築することを目的としている。
論文 参考訳(メタデータ) (2025-07-16T13:33:31Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Memory-Enhanced Neural Solvers for Routing Problems [8.255381359612885]
本稿では、メモリを活用して推論時のニューラルソルバの探索を改善するアプローチであるMementOを提案する。
本研究は, ツリーサーチと政策段階の微調整よりも, 走行セールスマンとキャパシタント車両ルーティングの問題に有効性を示すものである。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOのスケーラビリティとデータ効率を検証した。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。