論文の概要: HyenaPixel: Global Image Context with Convolutions
- arxiv url: http://arxiv.org/abs/2402.19305v1
- Date: Thu, 29 Feb 2024 16:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:07:34.177837
- Title: HyenaPixel: Global Image Context with Convolutions
- Title(参考訳): HyenaPixel: 畳み込みを伴うグローバルイメージコンテキスト
- Authors: Julian Spravil, Sebastian Houben, Sven Behnke
- Abstract要約: コンボリューションに基づくアテンション置換であるハイエナを因果配列から非因果2次元画像空間に拡張する。
画像分類において、HyenaPixelとHyenaは競合するImageNet-1kトップ-1の精度を83.0%と83.5%で達成している。
我々は,後段における空間バイアスの欠如による注意の高まりと,この発見を双方向ハイエナで支援している。
- 参考スコア(独自算出の注目度): 19.60538225663053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In vision tasks, a larger effective receptive field (ERF) is associated with
better performance. While attention natively supports global context,
convolution requires multiple stacked layers and a hierarchical structure for
large context. In this work, we extend Hyena, a convolution-based attention
replacement, from causal sequences to the non-causal two-dimensional image
space. We scale the Hyena convolution kernels beyond the feature map size up to
191$\times$191 to maximize the ERF while maintaining sub-quadratic complexity
in the number of pixels. We integrate our two-dimensional Hyena, HyenaPixel,
and bidirectional Hyena into the MetaFormer framework. For image
categorization, HyenaPixel and bidirectional Hyena achieve a competitive
ImageNet-1k top-1 accuracy of 83.0% and 83.5%, respectively, while
outperforming other large-kernel networks. Combining HyenaPixel with attention
further increases accuracy to 83.6%. We attribute the success of attention to
the lack of spatial bias in later stages and support this finding with
bidirectional Hyena.
- Abstract(参考訳): 視覚タスクでは、より大きな有効受容場(ERF)がより良いパフォーマンスに結びついている。
注目はグローバルなコンテキストをネイティブにサポートしますが、畳み込みには複数のレイヤと大きなコンテキストのための階層構造が必要です。
本研究では,畳み込みに基づく注意の置き換えであるhyenaを因果系列から非因果2次元画像空間へと拡張する。
我々は,Hyena畳み込みカーネルを特徴マップサイズを超えて191$\times$191まで拡張し,ピクセル数においてサブクアドラティックな複雑さを維持しながらRFを最大化する。
2次元のHyena、HyenaPixel、双方向のHyenaをMetaFormerフレームワークに統合します。
画像分類において、HyenaPixelとHyenaは競合するImageNet-1kトップ-1の精度を83.0%と83.5%で達成し、他の大規模カーネルネットワークより優れている。
hyenapixelと注意を組み合わせることで、精度はさらに83.6%向上する。
我々は,後段における空間バイアスの欠如による注意の高まりと,この発見を双方向ハイエナで支援している。
関連論文リスト
- PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views [116.10577967146762]
PixelGaussianは、任意の視点から一般化可能な3Dガウス再構成を学習するための効率的なフレームワークである。
提案手法は,様々な視点によく一般化した最先端性能を実現する。
論文 参考訳(メタデータ) (2024-10-24T17:59:58Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z) - Hypercomplex Image-to-Image Translation [13.483068375377362]
画像から画像への変換(I2I)は、コンテンツ表現を入力ドメインから出力ドメインに転送することを目的としている。
この課題で卓越した結果を得た最近のI2I生成モデルは、それぞれ数千万のパラメータを持つ多様な深層ネットワークで構成されている。
画像次元間の既往の関係を保存できる軽量I2I生成モデルを定義するために,超複素代数特性を活用することを提案する。
論文 参考訳(メタデータ) (2022-05-04T14:28:50Z) - Polarized Self-Attention: Towards High-quality Pixel-wise Regression [19.2303932008785]
本稿では,高画質画素ワイドレグレッションに対する2つの重要な設計を組み込んだPSAブロックを提案する。
実験の結果,PSAは2Dポーズ推定とセマンティックセグメンテーションのベンチマークにおいて,標準ベースラインを2~4ドル,最先端を1~2ドル,さらに2Dポーズ推定とセマンティックセグメンテーションのベンチマークで1~2ドル向上した。
論文 参考訳(メタデータ) (2021-07-02T01:03:11Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - PANDA: A Gigapixel-level Human-centric Video Dataset [74.12377583050142]
大規模・長期・多目的視覚分析のための,最初のギガPixelレベルのフガン中心のViDeo dAtasetであるPANDAを提示する。
PANDAのビデオは、ギガピクセルのカメラで撮影され、広い視野と高解像度の細部の両方で現実世界のシーンをカバーしている。
PANDAは15,974.6kのバウンディングボックス、111.8kの微粒な属性ラベル、12.7kの軌道、2.2kのグループ、2.9kの相互作用を含む、リッチで階層的な基底構造アノテーションを提供する。
論文 参考訳(メタデータ) (2020-03-10T16:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。