論文の概要: Efficient Decoder Scaling Strategy for Neural Routing Solvers
- arxiv url: http://arxiv.org/abs/2603.00430v1
- Date: Sat, 28 Feb 2026 03:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.18732
- Title: Efficient Decoder Scaling Strategy for Neural Routing Solvers
- Title(参考訳): ニューラルルーティングソリューションの効率的なデコーダスケーリング戦略
- Authors: Qing Luo, Fu Luo, Ke Li, Zhenkun Wang,
- Abstract要約: エンコーダとデコーダで構成される建設ベースのニューラルルーティングソルバは、車両ルーティング問題を解決するための有望なアプローチとして登場した。
このギャップに対処するため、我々は2つの異なる戦略、すなわちスケーリング深さとスケーリング幅を比較した系統的研究を行った。
- 参考スコア(独自算出の注目度): 10.836094489378716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Construction-based neural routing solvers, typically composed of an encoder and a decoder, have emerged as a promising approach for solving vehicle routing problems. While recent studies suggest that shifting parameters from the encoder to the decoder enhances performance, most works restrict the decoder size to 1-3M parameters, leaving the effects of scaling largely unexplored. To address this gap, we conduct a systematic study comparing two distinct strategies: scaling depth versus scaling width. We synthesize these strategies to construct a suite of 12 model configurations, spanning a parameter range from 1M to ~150M, and extensively evaluate their scaling behaviors across three critical dimensions: parameter efficiency, data efficiency, and compute efficiency. Our empirical results reveal that parameter count is insufficient to accurately predict the model performance, highlighting the critical and distinct roles of model depth (layer count) and width (embedding dimension). Crucially, we demonstrate that scaling depth yields superior performance gains to scaling width. Based on these findings, we provide and experimentally validate a set of design principles for the efficient allocation of parameters and compute resources to enhance the model performance.
- Abstract(参考訳): エンコーダとデコーダで構成される建設ベースのニューラルルーティングソルバは、車両ルーティング問題を解決するための有望なアプローチとして登場した。
近年の研究では、エンコーダからデコーダへのパラメータシフトにより性能が向上することが示唆されているが、ほとんどの研究はデコーダのサイズを1-3Mパラメータに制限しており、スケーリングの効果はほとんど探索されていない。
このギャップに対処するため、我々は2つの異なる戦略、すなわちスケーリング深さとスケーリング幅を比較した系統的研究を行った。
我々はこれらの戦略を合成し、パラメータを1Mから約150Mの範囲に広げ、パラメータ効率、データ効率、計算効率の3つの重要な次元にまたがるスケーリングの挙動を広範囲に評価する12のモデル構成のスイートを構築する。
実験の結果,パラメータカウントはモデル性能を正確に予測するには不十分であることが判明し,モデル深さ(層数)と幅(埋め込み次元)の重要かつ明確な役割を強調した。
重要なことは、スケーリングの深さがスケーリングの幅よりも優れたパフォーマンスをもたらすことを示す。
これらの知見に基づいて,モデル性能を向上させるためにパラメータと計算資源を効率的に割り当てるための設計原則のセットを,実験により提供し,検証した。
関連論文リスト
- Efficient-Husformer: Efficient Multimodal Transformer Hyperparameter Optimization for Stress and Cognitive Loads [0.0]
トランスフォーマーに基づくモデルは生理的信号解析の分野で大きな注目を集めている。
時間的信号の長距離依存性や複雑なパターンを活用することで、従来のRNNやCNNモデルよりも優れたパフォーマンスを実現することができる。
マルチクラスストレス検出のためのトランスフォーマーベースアーキテクチャであるEfficient-Husformerを提案する。
論文 参考訳(メタデータ) (2025-11-27T12:02:25Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Do deep neural networks utilize the weight space efficiently? [2.9914612342004503]
TransformersやConvolutional Neural Networks(CNN)といったディープラーニングモデルは、さまざまなドメインに革命をもたらしたが、パラメータ集約的な自然ハマーをリソース制約された設定に配置する。
重み行列の列空間と行空間を利用する新しい概念を導入し、性能を損なうことなくモデルパラメータを大幅に削減する。
私たちのアプローチはBottleneck層とAttention層の両方に適用され、パラメータを効果的に半分にします。
論文 参考訳(メタデータ) (2024-01-26T21:51:49Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Analyzing the Performance of Deep Encoder-Decoder Networks as Surrogates
for a Diffusion Equation [0.0]
本研究では,エンコーダ・デコーダ畳み込みニューラルネットワーク(CNN)を定常拡散解法の代用として利用することを検討した。
その結果,トレーニングセットのサイズが大きくなると,性能変動や全体的な誤差の低減に大きく影響することが示唆された。
論文 参考訳(メタデータ) (2023-02-07T22:53:19Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。