論文の概要: A Lightweight CNN-Transformer Model for Learning Traveling Salesman
Problems
- arxiv url: http://arxiv.org/abs/2305.01883v1
- Date: Wed, 3 May 2023 04:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:59:41.660414
- Title: A Lightweight CNN-Transformer Model for Learning Traveling Salesman
Problems
- Title(参考訳): 旅行セールスマン問題学習のための軽量CNN変換器モデル
- Authors: Minseop Jung, Jaeseung Lee, Jibum Kim
- Abstract要約: トランスフォーマーモデルによる大規模トラベリングセールスマン問題(TSP)においても最先端の性能を示す
本稿では,CNN埋め込み層と部分的自己注意に基づく軽量CNN変換器モデルを提案する。
我々のモデルはGPUメモリ使用量の約20%を消費し、他の最先端のTransformerベースモデルと比較して45%高速な推論時間を持つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models show state-of-the-art performance even for
large-scale Traveling Salesman Problems (TSPs). However, they are based on
fully-connected attention models and suffer from large computational complexity
and GPU memory usage. We propose a lightweight CNN-Transformer model based on a
CNN embedding layer and partial self-attention. Our CNN-Transformer model is
able to better learn spatial features from input data using a CNN embedding
layer compared with the standard Transformer models. It also removes
considerable redundancy in fully connected attention models using the proposed
partial self-attention. Experiments show that the proposed model outperforms
other state-of-the-art Transformer-based models in terms of TSP solution
quality, GPU memory usage, and inference time. Our model consumes approximately
20% less GPU memory usage and has 45% faster inference time compared with other
state-of-the-art Transformer-based models. Our code is publicly available at
https://github.com/cm8908/CNN_Transformer3
- Abstract(参考訳): トランスフォーマーベースのモデルは、大規模トラベリングセールスマン問題(TSP)においても最先端のパフォーマンスを示す。
しかし、それらは完全に接続されたアテンションモデルに基づいており、計算の複雑さとgpuメモリ使用に苦しむ。
本稿では,CNN埋め込み層と部分的自己注意に基づく軽量CNN変換器モデルを提案する。
我々のCNN-Transformerモデルは,標準のTransformerモデルと比較して,CNN埋め込み層を用いて入力データから空間的特徴をよりよく学習することができる。
また,提案する部分的セルフアテンションを用いて,完全連結注意モデルにおけるかなりの冗長性を取り除く。
実験により,提案モデルがtspソリューション品質,gpuメモリ使用量,推論時間といった点で,最先端トランスフォーマーモデルよりも優れていることが示された。
我々のモデルはGPUメモリ使用量の約20%を消費し、他の最先端のTransformerベースモデルと比較して45%高速な推論時間を持つ。
私たちのコードはhttps://github.com/cm8908/CNN_Transformer3で公開されています。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Reusing Convolutional Neural Network Models through Modularization and
Composition [22.823870645316397]
我々はCNNSplitterとGradSplitterという2つのモジュール化手法を提案する。
CNNSplitterは、トレーニングされた畳み込みニューラルネットワーク(CNN)モデルを、小さな再利用可能なモジュールとして$N$に分解する。
生成されたモジュールは、既存のCNNモデルにパッチを当てたり、コンポジションを通じて新しいCNNモデルを構築するために再利用することができる。
論文 参考訳(メタデータ) (2023-11-08T03:18:49Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - Patching Weak Convolutional Neural Network Models through Modularization
and Composition [19.986199290508925]
分類タスクのための畳み込みニューロンネットワーク(CNN)モデルは、しばしば不満足に機能する。
圧縮モジュラー化手法であるCNNSplitterを提案し、$N$クラス分類のための強力なCNNモデルを$N$より小さなCNNモジュールに分解する。
CNNSplitterは、モジュール化と構成により弱いCNNモデルにパッチを適用できることを示し、ロバストなCNNモデルを開発するための新しいソリューションを提供する。
論文 参考訳(メタデータ) (2022-09-11T15:26:16Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Transformed CNNs: recasting pre-trained convolutional layers with
self-attention [17.96659165573821]
視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
論文 参考訳(メタデータ) (2021-06-10T14:56:10Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。