Fugu-MT 論文翻訳(概要): Inception Transformer

論文の概要: Inception Transformer

arxiv url: http://arxiv.org/abs/2205.12956v2
Date: Thu, 26 May 2022 17:18:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-27 10:37:38.555636
Title: Inception Transformer
Title（参考訳）: インセプショントランスフォーマ
Authors: Chenyang Si, Weihao Yu, Pan Zhou, Yichen Zhou, Xinchao Wang, Shuicheng Yan
Abstract要約: インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
参考スコア（独自算出の注目度）: 151.939077819196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies show that Transformer has strong capability of building long-range dependencies, yet is incompetent in capturing high frequencies that predominantly convey local information. To tackle this issue, we present a novel and general-purpose Inception Transformer, or iFormer for short, that effectively learns comprehensive features with both high- and low-frequency information in visual data. Specifically, we design an Inception mixer to explicitly graft the advantages of convolution and max-pooling for capturing the high-frequency information to Transformers. Different from recent hybrid frameworks, the Inception mixer brings greater efficiency through a channel splitting mechanism to adopt parallel convolution/max-pooling path and self-attention path as high- and low-frequency mixers, while having the flexibility to model discriminative information scattered within a wide frequency range. Considering that bottom layers play more roles in capturing high-frequency details while top layers more in modeling low-frequency global information, we further introduce a frequency ramp structure, i.e. gradually decreasing the dimensions fed to the high-frequency mixer and increasing those to the low-frequency mixer, which can effectively trade-off high- and low-frequency components across different layers. We benchmark the iFormer on a series of vision tasks, and showcase that it achieves impressive performance on image classification, COCO detection and ADE20K segmentation. For example, our iFormer-S hits the top-1 accuracy of 83.4% on ImageNet-1K, much higher than DeiT-S by 3.6%, and even slightly better than much bigger model Swin-B (83.3%) with only 1/4 parameters and 1/3 FLOPs. Code and models will be released at https://github.com/sail-sg/iFormer.
Abstract（参考訳）: 近年の研究では、Transformerは長距離依存の構築能力は高いが、ローカル情報を主に伝達する高周波数の取得には無力であることが示されている。そこで本稿では,高頻度情報と低周波数情報の両方を用いた総合的特徴を効果的に学習する,新しい汎用インセプショントランスフォーマ(iformer)を提案する。具体的には,インセプションミキサーの設計を行い,畳み込みと最大プールの利点を明示し,高周波情報をトランスフォーマーにキャプチャする。最近のハイブリッドフレームワークと異なり、インセプションミキサーはチャネル分割機構を通じて高い周波数範囲に分散した識別情報をモデル化する柔軟性を持ちながら、並列畳み込み/最大プールパスと自己保持パスを高周波数および低周波数ミキサーとして採用する。また,低周波大域情報をモデル化する上で,低周波の詳細を捉える上でボトム層が果たす役割が大きいことを考慮し,低周波ミキサーに供給される寸法を徐々に減少させ,低周波ミキサーに増加させる周波数ランプ構造を導入することで,高周波成分と低周波成分を異なる層間で効果的にトレードオフさせることができる。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。例えば、私たちのiFormer-SはImageNet-1Kで83.4%の精度で、DeiT-Sよりも3.6%高く、1/4のパラメータと1/3のFLOPしか持たないSwin-B(83.3%)よりも若干良い。コードとモデルはhttps://github.com/sail-sg/iformerでリリースされる。

関連論文リスト

Transformer-Based Person Search with High-Frequency Augmentation and Multi-Wave Mixing [18.871765626140782]
人物探索のための新しい高周波増幅・マルチウェーブ混合法を提案する。 HamWは変圧器の識別的特徴抽出能力を高めるように設計されている。 HamWはCUHK-SYSUデータセットとPRWデータセットの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-29T12:08:26Z)
Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文参考訳（メタデータ） (2025-06-19T13:28:09Z)
FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文参考訳（メタデータ） (2025-06-17T02:33:42Z)
A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency [9.668149257194887]
周波数収束不整合を解消するためのウェーブレットベースのステレオマッチングフレームワーク(ウェーブレット・ステレオ)を提案する。高周波数成分と低周波成分を別々に処理することで、我々は、エッジにおける高周波情報とスムーズな領域における低周波情報を同時に洗練することができる。
論文参考訳（メタデータ） (2025-05-23T15:28:03Z)
PiT: Progressive Diffusion Transformer [50.46345527963736]
Pseudo textbfProgressive Dtextbfiffusion textbfTransformer (textbfPiT)を提案する。提案したPiT-Lは,演算量が少なく,DiT-XL/2よりも54%$uparrow$FIDの改善を実現している。
論文参考訳（メタデータ） (2025-05-19T15:02:33Z)
3D Wavelet Convolutions with Extended Receptive Fields for Hyperspectral Image Classification [12.168520751389622]
ディープニューラルネットワークは、ハイパースペクトル画像分類において多くの課題に直面している。本稿ではウェーブレット変換と統合された改良型3D-DenseNetモデルWCNetを提案する。実験結果から,IN,UP,KSCデータセットにおいて優れた性能を示した。
論文参考訳（メタデータ） (2025-04-15T01:39:42Z)
Frequency-aware Feature Fusion for Dense Image Prediction [99.85757278772262]
本稿では,高密度画像予測のための周波数認識機能融合(FreqFusion)を提案する。 FreqFusionは、Adaptive Low-Pass Filter (ALPF) ジェネレータ、オフセットジェネレータ、Adaptive High-Pass Filter (AHPF) ジェネレータを統合する。包括的可視化と定量的分析は、FreqFusionが機能一貫性を効果的に改善し、オブジェクト境界を鋭くすることを示している。
論文参考訳（メタデータ） (2024-08-23T07:30:34Z)
ML-CrAIST: Multi-scale Low-high Frequency Information-based Cross black Attention with Image Super-resolving Transformer [3.686808512438363]
この研究は、ML-CrAISTと呼ばれるトランスフォーマーベースの超解像アーキテクチャを提案する。我々は空間的およびチャネル的自己アテンションを運用し、空間的およびチャネル的両方の次元から画素間相互作用を同時にモデル化する。超解像のためのクロスアテンションブロックを考案し、低周波情報と高周波情報との相関について検討する。
論文参考訳（メタデータ） (2024-08-19T12:23:15Z)
Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文参考訳（メタデータ） (2024-08-11T07:01:39Z)
MCMS: Multi-Category Information and Multi-Scale Stripe Attention for Blind Motion Deblurring [14.874224120737438]
マルチカテゴリ情報とマルチスケールストリップアテンション機構に基づくブラインドモーションデブロアリングネットワーク(MCMS)を提案する。このモデルは、高周波成分のエッジ情報と低周波成分の構造情報を融合させることで、動作不良を効果的に改善する。
論文参考訳（メタデータ） (2024-05-02T08:25:52Z)
Spiking Wavelet Transformer [1.8712213089437697]
スパイキングニューラルネットワーク(SNN)は、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。 SNNの変換器は精度が保証されているが、高周波パターンの学習に苦労している。本研究では、スパイク駆動方式で包括的空間周波数特徴を効果的に学習する無注意アーキテクチャであるSpking Wavelet Transformer(SWformer)を提案する。
論文参考訳（メタデータ） (2024-03-17T08:41:48Z)
The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文参考訳（メタデータ） (2022-10-12T15:25:19Z)
Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文参考訳（メタデータ） (2022-08-18T13:46:12Z)
FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。 3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文参考訳（メタデータ） (2022-03-24T07:26:29Z)
Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文参考訳（メタデータ） (2021-07-01T17:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。