論文の概要: Performance Evaluation of Swin Vision Transformer Model using Gradient
Accumulation Optimization Technique
- arxiv url: http://arxiv.org/abs/2308.00197v1
- Date: Mon, 31 Jul 2023 23:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 16:00:07.012819
- Title: Performance Evaluation of Swin Vision Transformer Model using Gradient
Accumulation Optimization Technique
- Title(参考訳): 勾配累積最適化法を用いたスウィンビジョン変圧器モデルの性能評価
- Authors: Sanad Aburass and Osama Dorgham
- Abstract要約: 本稿では,勾配累積最適化手法を用いて,Swin ViTモデルの性能評価を行う。
GAO技術の適用により、Swin ViTモデルの精度が大幅に低下する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have emerged as a promising approach for visual
recognition tasks, revolutionizing the field by leveraging the power of
transformer-based architectures. Among the various ViT models, Swin
Transformers have gained considerable attention due to their hierarchical
design and ability to capture both local and global visual features
effectively. This paper evaluates the performance of Swin ViT model using
gradient accumulation optimization (GAO) technique. We investigate the impact
of gradient accumulation optimization technique on the model's accuracy and
training time. Our experiments show that applying the GAO technique leads to a
significant decrease in the accuracy of the Swin ViT model, compared to the
standard Swin Transformer model. Moreover, we detect a significant increase in
the training time of the Swin ViT model when GAO model is applied. These
findings suggest that applying the GAO technique may not be suitable for the
Swin ViT model, and concern should be undertaken when using GAO technique for
other transformer-based models.
- Abstract(参考訳): ViT(Vision Transformers)は、視覚認識タスクのための有望なアプローチとして登場し、トランスフォーマーベースのアーキテクチャのパワーを活用して、フィールドに革命をもたらした。
様々なViTモデルの中で、スウィントランスフォーマーは階層的な設計と、ローカルとグローバルの両方の視覚的特徴を効果的に捉える能力によって、かなりの注目を集めている。
本稿では,勾配累積最適化(GAO)手法を用いて,Swin ViTモデルの性能評価を行う。
勾配累積最適化手法がモデルの精度と訓練時間に及ぼす影響について検討した。
実験の結果,GAO法の適用により,標準のSwin Transformerモデルと比較して,Swin ViTモデルの精度が大幅に低下することがわかった。
さらに,gaoモデルを適用すると,swain vitモデルのトレーニング時間が大幅に増加することを検出する。
これらの結果から,gao技術はswain vitモデルには適さない可能性があり,他のトランスフォーマーモデルにgao技術を使用する場合には注意が必要である。
関連論文リスト
- Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - TransAxx: Efficient Transformers with Approximate Computing [4.347898144642257]
Vision Transformer (ViT) モデルは非常に競争力があり、畳み込みニューラルネットワーク (CNN) の代替として人気がある。
本稿では,PyTorchライブラリをベースとしたフレームワークであるTransAxxを提案する。
提案手法では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,構成可能な空間を効率的に探索する。
論文 参考訳(メタデータ) (2024-02-12T10:16:05Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - ViT2EEG: Leveraging Hybrid Pretrained Vision Transformers for EEG Data [0.0]
画像ネット上で事前学習したハイブリッドビジョントランスフォーマー(ViT)モデルの脳波回帰タスクへの応用を実演する。
このモデルは、ImageNetの重みなしでトレーニングされた同じアーキテクチャのViTなど、他のモデルと比較して、顕著なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2023-08-01T11:10:33Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - Depth Estimation with Simplified Transformer [4.565830918989131]
トランスフォーマーとその変種は、最近多くの視覚タスクにおいて最先端の結果を示している。
簡易変換器(DEST)を用いた自己教師型単眼深度推定法を提案する。
我々のモデルでは、モデルのサイズ、複雑さ、および推論遅延を大幅に削減すると同時に、最先端技術と比較して精度が向上する。
論文 参考訳(メタデータ) (2022-04-28T21:39:00Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。