論文の概要: Decoupling Numerical and Structural Parameters: An Empirical Study on Adaptive Genetic Algorithms via Deep Reinforcement Learning for the Large-Scale TSP
- arxiv url: http://arxiv.org/abs/2603.20702v1
- Date: Sat, 21 Mar 2026 07:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.048221
- Title: Decoupling Numerical and Structural Parameters: An Empirical Study on Adaptive Genetic Algorithms via Deep Reinforcement Learning for the Large-Scale TSP
- Title(参考訳): 数値的・構造的パラメータのデカップリング:大規模TSPのための深層強化学習による適応型遺伝的アルゴリズムの実証的研究
- Authors: Hongyu Wang, Yuhan Jing, Yibing Shi, Enjin Zhou, Haotian Zhang, Jialong Shi,
- Abstract要約: 本稿では,この2つの次元が旅行セールスマン問題(TSP)に与える影響を分離・解析するために,二重レベル深層強化学習(DRL)フレームワークを用いた実証的研究を提案する。
本研究では、これらのパラメータを動的に制御するために、リカレントPPOエージェントを使用し、DRLモデルをプローブとして扱い、進化力学を明らかにする。
数値的チューニングは局所的な洗練を提供するが、構造的可塑性は停滞を防ぎ、局所的な最適化から逃れる上で決定的な要因である。
- 参考スコア(独自算出の注目度): 13.08340371229562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proper parameter configuration is a prerequisite for the success of Evolutionary Algorithms (EAs). While various adaptive strategies have been proposed, it remains an open question whether all control dimensions contribute equally to algorithmic scalability. To investigate this, we categorize control variables into numerical parameters (e.g., crossover and mutation rates) and structural parameters (e.g., population size and operator switching), hypothesizing that they play distinct roles. This paper presents an empirical study utilizing a dual-level Deep Reinforcement Learning (DRL) framework to decouple and analyze the impact of these two dimensions on the Traveling Salesman Problem (TSP). We employ a Recurrent PPO agent to dynamically regulate these parameters, treating the DRL model as a probe to reveal evolutionary dynamics. Experimental results confirm the effectiveness of this approach: the learned policies outperform static baselines, reducing the optimality gap by approximately 45% on the largest tested instance (rl5915). Building on this validated framework, our ablation analysis reveals a fundamental insight: while numerical tuning offers local refinement, structural plasticity is the decisive factor in preventing stagnation and facilitating escape from local optima. These findings suggest that future automated algorithm design should prioritize dynamic structural reconfiguration over fine-grained probability adjustment. To facilitate reproducibility, the source code is available at https://github.com/StarDream1314/DRLGA-TSP
- Abstract(参考訳): 適切なパラメータ設定は進化的アルゴリズム(EA)の成功の前提条件である。
様々な適応戦略が提案されているが、全ての制御次元がアルゴリズムのスケーラビリティに等しく寄与するかどうかについては未解決のままである。
そこで本研究では, 制御変数を数値パラメータ(例えば, 交叉率, 突然変異率)と構造パラメータ(例えば, 集団サイズ, 演算子スイッチング)に分類し, 異なる役割を担っていると仮定する。
本稿では,2段階のDeep Reinforcement Learning (DRL) フレームワークを用いて,これらの2次元が旅行セールスマン問題 (TSP) に与える影響を分離・解析する実験的検討を行った。
我々は,これらのパラメータを動的に制御するためにリカレントPPOエージェントを使用し,DRLモデルをプローブとして扱い,進化力学を明らかにする。
学習されたポリシーは静的ベースラインを上回り、最大のテストインスタンス(rl5915)で最適性ギャップを約45%削減する。
数値的チューニングは局所的な洗練を提供するが、構造的可塑性は停滞を防ぎ、局所的な最適化から逃れる上で決定的な要因である。
これらの結果から、将来の自動アルゴリズム設計は、微細な確率調整よりも動的構造再構成を優先すべきであることが示唆された。
再現性を促進するため、ソースコードはhttps://github.com/StarDream1314/DRLGA-TSPで入手できる。
関連論文リスト
- How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Deep Reinforcement Learning for Dynamic Algorithm Configuration: A Case Study on Optimizing OneMax with the (1+($λ$,$λ$))-GA [3.5485296570255183]
OneMaxインスタンス上の(1+($$,$$$)-GAの集団サイズパラメータを体系的に制御する。
DDQNとPPOについて検討した結果,DACの有効性を抑える2つの根本的な課題が明らかになった。
DDQNエージェント探索を強化するために,報酬分布統計を利用した適応型報酬シフト機構を導入する。
論文 参考訳(メタデータ) (2025-12-03T13:54:41Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Addressing prior dependence in hierarchical Bayesian modeling for PTA data analysis I: Methodology and implementation [0.0]
Pulsar Timing Array(PTA)データ分析で遭遇したような複雑な推論タスクは、ベイズフレームワークに依存している。
天体物理学、パルサーノイズ、ニュアンスパラメータの高次元パラメータ空間と強い相互依存性は、効率的な学習と堅牢な推論に重大な課題をもたらす。
我々はこれらの問題を階層的ベイズモデリングの枠組みにおいて、reパラメータ化戦略を導入することで解決する。
論文 参考訳(メタデータ) (2025-11-05T17:33:44Z) - The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features [1.7832672957068079]
このフレームワークは、解釈可能なスパース機能を調節することで、モデル動作を操る軽量なアダプタを訓練する。
この機構は, 学習後プロセスの挙動変化を近似するのに十分な原理と表現性を有することを示す。
全体として、FSRLは解釈可能な制御インターフェースを提供し、フィーチャレベルでの好み最適化の圧力がどのように現れるかを診断する実用的な方法を提供している。
論文 参考訳(メタデータ) (2025-09-16T10:32:40Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - On Parametric Optimal Execution and Machine Learning Surrogates [3.077531983369872]
本研究では,短時間の価格変動とレジリエンスを考慮した離散時間における最適順序実行問題について検討する。
動的プログラミングとディープラーニングに基づく数値アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-18T22:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。