論文の概要: Rethink Efficiency Side of Neural Combinatorial Solver: An Offline and Self-Play Paradigm
- arxiv url: http://arxiv.org/abs/2602.20730v1
- Date: Tue, 24 Feb 2026 09:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.704762
- Title: Rethink Efficiency Side of Neural Combinatorial Solver: An Offline and Self-Play Paradigm
- Title(参考訳): Neural Combinatorial Solverの効率性を再考する: オフラインとセルフプレイのパラダイム
- Authors: Zhenxing Xu, Zeyuan Ma, Weidong Bao, Hui Yan, Yan Zheng, Ji Wang,
- Abstract要約: ニューラルコンビネーション最適化(NCO)のための効率的なオフライン・セルフプレイを可能にする多目的学習パラダイムであるECOを提案する。
非効率なオンラインパラダイムを超えて、教師付きウォームアップと反復的直接選好最適化(DPO)からなる2段階のオフラインパラダイムを導入する。
トレーニングを安定させるために、トレーニング中の継続的なポリシー改善を保証するブートストラップ機構を用いる。
- 参考スコア(独自算出の注目度): 20.747096255486838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose ECO, a versatile learning paradigm that enables efficient offline self-play for Neural Combinatorial Optimization (NCO). ECO addresses key limitations in the field through: 1) Paradigm Shift: Moving beyond inefficient online paradigms, we introduce a two-phase offline paradigm consisting of supervised warm-up and iterative Direct Preference Optimization (DPO); 2) Architecture Shift: We deliberately design a Mamba-based architecture to further enhance the efficiency in the offline paradigm; and 3) Progressive Bootstrapping: To stabilize training, we employ a heuristic-based bootstrapping mechanism that ensures continuous policy improvement during training. Comparison results on TSP and CVRP highlight that ECO performs competitively with up-to-date baselines, with significant advantage on the efficiency side in terms of memory utilization and training throughput. We provide further in-depth analysis on the efficiency, throughput and memory usage of ECO. Ablation studies show rationale behind our designs.
- Abstract(参考訳): 本稿では,ニューラルネットワーク最適化(Neural Combinatorial Optimization, NCO)のための効率的なオフライン・セルフプレイを実現する多目的学習パラダイムであるECOを提案する。
ECOはフィールド内の重要な制限に対処します。
1)パラダイムシフト:非効率なオンラインパラダイムを超えて、教師付きウォームアップと反復的直接選好最適化(DPO)からなる2段階のオフラインパラダイムを導入する。
2) アーキテクチャシフト: オフラインパラダイムの効率をさらに高めるために、意図的にMambaベースのアーキテクチャを設計します。
3) プログレッシブブートストラッピング: トレーニングを安定させるために,トレーニング中の継続的なポリシ改善を保証するヒューリスティックベースのブートストラッピング機構を採用しています。
TSPとCVRPの比較結果によると、ECOは最新のベースラインと競合し、メモリ使用率とトレーニングスループットの面で効率面で大きな利点がある。
ECOの効率,スループット,メモリ使用量に関する詳細な分析を行う。
アブレーション研究は我々の設計の背後にある根拠を示している。
関連論文リスト
- NetworkFF: Unified Layer Optimization in Forward-Only Neural Networks [0.0]
本稿では,CFF(Collaborative Forward-Forward)学習について紹介する。
MNISTとFashion-MNISTの総合的な評価は、ベースラインのForward-Forward実装よりも大幅に改善されている。
これらの知見は、神経形コンピューティングアーキテクチャやエネルギー制約されたAIシステムに即時適用可能な、フォワード・フォワード学習の基本的な強化として、層間コラボレーションを確立している。
論文 参考訳(メタデータ) (2025-12-19T12:54:03Z) - Efficient Reinforcement Learning from Human Feedback via Bayesian Preference Inference [0.29057513016551245]
本稿では,RLHFのスケーラビリティとPBOのクエリ効率を一体化するハイブリッドフレームワークを提案する。
提案手法は, (i) 高次元優先最適化と (ii) LLMファインチューニングの2つの代表的な領域に対して検証する。
論文 参考訳(メタデータ) (2025-11-06T11:27:38Z) - More Than Memory Savings: Zeroth-Order Optimization Mitigates Forgetting in Continual Learning [10.698225972251839]
Zeroth-order (ZO) 最適化は、一階法(FO) に代わるメモリ効率の代替として注目されている。
本研究では,ZOの最適化が自然に損失景観の平ら化を招き,連続学習における忘れを減少させることを示す。
この安定性は可塑性のコストを伴い、不正確な勾配推定と緩やかな収束により、ZO最適化は新しいタスク固有の知識を取得する際にFOよりも効果が低い傾向にある。
FO最適化分類器を備えた単一アダプタベースのPEFTモジュールに対して,ZO最適化を適用した簡易かつ効果的なZO-FCを提案する。
論文 参考訳(メタデータ) (2025-10-23T21:54:00Z) - Meta-Black-Box-Optimization through Offline Q-function Learning [17.565058993388707]
オフライン学習ベースのMetaBBOフレームワークであるQ-Mambaを提案し,MetaBBOの有効性と効率性を両立させる。
そこで本研究では,オフラインデータからメタ学習型DACポリシーを提案する。
Q-Mambaは、以前のオンライン/オフラインベースラインよりも、競争力やパフォーマンスに優れています。
論文 参考訳(メタデータ) (2025-05-04T06:41:43Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [77.79640601822341]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - Cost-Sensitive Multi-Fidelity Bayesian Optimization with Transfer of Learning Curve Extrapolation [55.75188191403343]
各ユーザが事前に定義した機能であるユーティリティを導入し,BOのコストと性能のトレードオフについて述べる。
このアルゴリズムをLCデータセット上で検証した結果,従来のマルチファイルBOや転送BOベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-05-28T07:38:39Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。