Fugu-MT 論文翻訳(概要): Scaling Up Computer Vision Neural Networks Using Fast Fourier Transform

論文の概要: Scaling Up Computer Vision Neural Networks Using Fast Fourier Transform

arxiv url: http://arxiv.org/abs/2302.12185v1
Date: Thu, 2 Feb 2023 19:19:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-26 13:14:51.069231
Title: Scaling Up Computer Vision Neural Networks Using Fast Fourier Transform
Title（参考訳）: 高速フーリエ変換を用いたコンピュータビジョンニューラルネットワークのスケールアップ
Authors: Siddharth Agrawal
Abstract要約: ディープラーニングベースのComputer Visionフィールドは、畳み込みニューラルネットワークを効果的にスケールアップするために、畳み込みのためのより大きなカーネルを探そうとしている。視覚変換器のような新しいモデルのパラダイムは、入力シーケンスの2次複雑さのため、より大きな高解像度画像にスケールアップすることは困難である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Learning-based Computer Vision field has recently been trying to explore larger kernels for convolution to effectively scale up Convolutional Neural Networks. Simultaneously, new paradigm of models such as Vision Transformers find it difficult to scale up to larger higher resolution images due to their quadratic complexity in terms of input sequence. In this report, Fast Fourier Transform is utilised in various ways to provide some solutions to these issues.
Abstract（参考訳）: ディープラーニングベースのコンピュータビジョン分野は、畳み込みニューラルネットワークを効果的にスケールアップするために、より大きなカーネルを探索しようとしている。同時に、視覚トランスフォーマーのようなモデルの新しいパラダイムでは、入力シーケンスの2次複雑性のため、より大きな高解像度画像へのスケールアップが困難である。本稿では,これらの問題に対する解決策を提供するために,Fast Fourier Transformを様々な方法で活用する。

関連論文リスト

Optimizing Vision Transformers for Medical Image Segmentation and Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。 CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文参考訳（メタデータ） (2022-10-14T19:18:52Z)
Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文参考訳（メタデータ） (2022-05-15T09:30:28Z)
Batch Processing and Data Streaming Fourier-based Convolutional Neural Network Accelerator [4.7257913147626995]
ナビゲーション、トラッキング、リアルタイムマシンアクションシステムなど、多数のアプリケーションにおいて、最小レイテンシの人工ニューラルネットワークによる決定が最重要である。これにより、機械学習ハードウェアは、高いスループットで多次元データを処理する必要がある。本稿では,Fourier Convolutional Neural Network(FCNN)アクセラレータを用いた,ニューマンベースではない機械学習アクセラレーションを実演する。
論文参考訳（メタデータ） (2021-12-23T01:06:17Z)
Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-18T18:59:10Z)
Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文参考訳（メタデータ） (2021-07-01T17:58:16Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)
Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文参考訳（メタデータ） (2021-04-26T13:13:03Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。