論文の概要: Attention, Filling in The Gaps for Generalization in Routing Problems
- arxiv url: http://arxiv.org/abs/2207.07212v1
- Date: Thu, 14 Jul 2022 21:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 23:08:36.822457
- Title: Attention, Filling in The Gaps for Generalization in Routing Problems
- Title(参考訳): ルーティング問題における一般化のためのギャップを埋めること
- Authors: Ahmad Bdeir, Jonas K. Falkner, Lars Schmidt-Thieme
- Abstract要約: 本稿では,既存のモデルの理解と改善を通じて,分野の統合を促進することを目的とする。
我々はまず,Sparse Dynamic Attention のための Kool et al. 法とその損失関数を適用することで,モデルの相違を第一に狙う。
次に、特定のシナリオにおける単一インスタンストレーニングよりも優れたパフォーマンスを示す混合インスタンストレーニングメソッドを使用することで、固有の違いをターゲットとします。
- 参考スコア(独自算出の注目度): 5.210197476419621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) methods have become a useful tool for tackling vehicle
routing problems, either in combination with popular heuristics or as
standalone models. However, current methods suffer from poor generalization
when tackling problems of different sizes or different distributions. As a
result, ML in vehicle routing has witnessed an expansion phase with new
methodologies being created for particular problem instances that become
infeasible at larger problem sizes.
This paper aims at encouraging the consolidation of the field through
understanding and improving current existing models, namely the attention model
by Kool et al. We identify two discrepancy categories for VRP generalization.
The first is based on the differences that are inherent to the problems
themselves, and the second relates to architectural weaknesses that limit the
model's ability to generalize. Our contribution becomes threefold: We first
target model discrepancies by adapting the Kool et al. method and its loss
function for Sparse Dynamic Attention based on the alpha-entmax activation. We
then target inherent differences through the use of a mixed instance training
method that has been shown to outperform single instance training in certain
scenarios. Finally, we introduce a framework for inference level data
augmentation that improves performance by leveraging the model's lack of
invariance to rotation and dilation changes.
- Abstract(参考訳): 機械学習(ML)メソッドは、一般的なヒューリスティックと組み合わせて、あるいはスタンドアロンモデルとして、車両ルーティング問題に取り組む上で有用なツールとなっている。
しかし、現在の手法では、サイズや分布の異なる問題に取り組む場合の一般化が貧弱である。
結果として、車両ルーティングにおけるMLは、より大きな問題サイズで実現不可能となる特定の問題インスタンスに対して、新しい方法論が作成される拡張フェーズを目撃した。
本稿では,現在のモデルであるkoolらによる注意モデルを理解し,改善することで,この分野の統合を促進することを目的とする。
vrp一般化のための2つの異なるカテゴリを識別する。
1つは問題自体に固有の違いに基づいており、もう1つはモデルを一般化する能力を制限するアーキテクチャ上の弱点に関するものである。
我々はまず,α-entmaxアクティベーションに基づくSparse Dynamic Attentionに対するKool et al.法とその損失関数を適用することで,モデルの相違を第一に狙う。
次に、特定のシナリオにおける単一インスタンストレーニングよりも優れたパフォーマンスを示す混合インスタンストレーニングメソッドを使用することで、固有の違いをターゲットとします。
最後に,モデルの回転や拡張変化に対する不変性の欠如を利用して,性能を向上させる推論レベルのデータ拡張フレームワークを提案する。
関連論文リスト
- Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
近年、拡散モデルはGANの非敵対的な代替品として出現している。
提案手法は, 様々な連続制御問題に対して, GANスタイルの模倣学習ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Weight Scope Alignment: A Frustratingly Easy Method for Model Merging [40.080926444789085]
非I.D.データは平均的なモデル融合にとって大きな課題となる。
本稿では,異なるトレーニング条件下での重量範囲の変化を明らかにする。
幸いなことに、各層のパラメータは基本的にガウス分布に従っており、これは新しく単純な正規化アプローチを刺激している。
論文 参考訳(メタデータ) (2024-08-22T09:13:27Z) - Improving Generalization of Neural Vehicle Routing Problem Solvers Through the Lens of Model Architecture [9.244633039170186]
本稿では,ESF(Scaling Factor)とDS(Distributed-Specific)デコーダを提案する。
ESFは、様々な大きさのVRPを解く際に、トレーニング中に発見された慣れ親しんだものに対して、モデルの注意重みパターンを調整する。
DSデコーダは、複数の補助光デコーダを通して複数のトレーニング分布パターンのVRPを明示的にモデル化し、モデル表現空間を拡大する。
論文 参考訳(メタデータ) (2024-06-10T09:03:17Z) - Prompt Learning for Generalized Vehicle Routing [17.424910810870273]
本研究は, クロスディストリビューション適応のためのニューラル最適化において, 効率的なプロンプト学習手法について検討する。
提案モデルでは, 各種分布の一連のプロンプトを学習し, 最良適合のプロンプトを選択し, 各問題インスタンスに対して事前学習したアテンションモデルを提案する。
また、分散予測とゼロショット一般化の両方において、既存の一般化されたモデルよりも、多様な新しいタスクセットに優れる。
論文 参考訳(メタデータ) (2024-05-20T15:42:23Z) - Promoting Generalization for Exact Solvers via Adversarial Instance
Augmentation [62.738582127114704]
Adarは、模倣学習ベース(ILベース)と強化学習ベース(RLベース)の両方の一般化を理解し、改善するためのフレームワークである。
論文 参考訳(メタデータ) (2023-10-22T03:15:36Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Towards Omni-generalizable Neural Methods for Vehicle Routing Problems [14.210085924625705]
本稿では,VRPにおけるサイズと分布の両面での一般化を考慮した,挑戦的かつ現実的な設定について検討する。
提案するメタラーニングフレームワークは,推論中に新しいタスクに迅速に適応する能力を持つモデルを効果的に学習することを可能にする。
論文 参考訳(メタデータ) (2023-05-31T06:14:34Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Adaptive Fine-Grained Sketch-Based Image Retrieval [100.90633284767205]
最近のファイングレード・スケッチに基づく画像検索は、モデルから新しいカテゴリへの一般化へとシフトしている。
実世界のアプリケーションでは、トレーニングされたFG-SBIRモデルは、新しいカテゴリと異なる人間のスケッチラーの両方に適用されることが多い。
モデルに依存しないメタラーニング(MAML)に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-04T21:07:20Z) - Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning [141.35105358670316]
本研究では,Na"訓練初期相モデルとオラクルモデルとの相違について検討する。
より均一に散らばるように,各クラスの表現を効果的に正規化するクラスワイド・デコレーション(CwD)を提案する。
私たちのCwDは実装が簡単で、既存のメソッドに簡単にプラグインできます。
論文 参考訳(メタデータ) (2021-12-09T07:20:32Z) - Distributed Methods with Compressed Communication for Solving
Variational Inequalities, with Theoretical Guarantees [115.08148491584997]
本稿では,MASHA1 と MASHA2 の圧縮通信による変分不等式とサドル点問題の解法について理論的に検討した。
新しいアルゴリズムは双方向圧縮をサポートし、バッチの設定や、クライアントの部分的な参加を伴うフェデレーション学習のために修正することもできる。
論文 参考訳(メタデータ) (2021-10-07T10:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。