論文の概要: HyenaPixel: Global Image Context with Convolutions
- arxiv url: http://arxiv.org/abs/2402.19305v2
- Date: Thu, 23 May 2024 14:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:29:07.859246
- Title: HyenaPixel: Global Image Context with Convolutions
- Title(参考訳): HyenaPixel: 畳み込みを伴うグローバルイメージコンテキスト
- Authors: Julian Spravil, Sebastian Houben, Sven Behnke,
- Abstract要約: コンボリューションに基づくアテンション置換であるHyenaを、因果配列から双方向データ、二次元画像空間まで拡張する。
画像分類において、HyenaPixelと双方向Hyenaは、それぞれ84.9%と85.2%の競合するImageNet-1kトップ1の精度を達成した。
両方向ハイエナの成功は、固定された近傍定義を使わずに、データ依存の幾何学的配置を学習することによるものである。
- 参考スコア(独自算出の注目度): 17.444066202370397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In computer vision, a larger effective receptive field (ERF) is associated with better performance. While attention natively supports global context, its quadratic complexity limits its applicability to tasks that benefit from high-resolution input. In this work, we extend Hyena, a convolution-based attention replacement, from causal sequences to bidirectional data and two-dimensional image space. We scale Hyena's convolution kernels beyond the feature map size, up to 191$\times$191, to maximize ERF while maintaining sub-quadratic complexity in the number of pixels. We integrate our two-dimensional Hyena, HyenaPixel, and bidirectional Hyena into the MetaFormer framework. For image categorization, HyenaPixel and bidirectional Hyena achieve a competitive ImageNet-1k top-1 accuracy of 84.9% and 85.2%, respectively, with no additional training data, while outperforming other convolutional and large-kernel networks. Combining HyenaPixel with attention further improves accuracy. We attribute the success of bidirectional Hyena to learning the data-dependent geometric arrangement of pixels without a fixed neighborhood definition. Experimental results on downstream tasks suggest that HyenaPixel with large filters and a fixed neighborhood leads to better localization performance.
- Abstract(参考訳): コンピュータビジョンでは、より大きな有効受容場(ERF)がより良い性能に結びついている。
注意はグローバルコンテキストをネイティブにサポートするが、その2次複雑性は高解像度入力の恩恵を受けるタスクに適用性を制限する。
本研究では,コンボリューションに基づくアテンション置換であるハイエナを因果配列から双方向データ,二次元画像空間へ拡張する。
我々はHyenaの畳み込みカーネルを特徴マップサイズを超えて191$\times$191まで拡張し、ピクセル数においてサブクアドラティックな複雑さを維持しながらRFを最大化する。
2次元のHyena、HyenaPixel、双方向のHyenaをMetaFormerフレームワークに統合します。
画像分類において、HyenaPixelと双方向Hyenaは、それぞれ84.9%と85.2%という競合するImageNet-1k Top-1の精度を達成し、追加のトレーニングデータはないが、他の畳み込みネットワークや大規模カーネルネットワークよりも優れている。
HyenaPixelと注目を組み合わせることで、さらに精度が向上する。
両方向ハイエナの成功は、固定された近傍定義を使わずに、データ依存の幾何学的配置を学習することによるものである。
下流タスクの実験結果から,大きなフィルタと固定された近傍を持つHyenaPixelは,ローカライゼーション性能が向上することが示唆された。
関連論文リスト
- PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views [116.10577967146762]
PixelGaussianは、任意の視点から一般化可能な3Dガウス再構成を学習するための効率的なフレームワークである。
提案手法は,様々な視点によく一般化した最先端性能を実現する。
論文 参考訳(メタデータ) (2024-10-24T17:59:58Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z) - Hypercomplex Image-to-Image Translation [13.483068375377362]
画像から画像への変換(I2I)は、コンテンツ表現を入力ドメインから出力ドメインに転送することを目的としている。
この課題で卓越した結果を得た最近のI2I生成モデルは、それぞれ数千万のパラメータを持つ多様な深層ネットワークで構成されている。
画像次元間の既往の関係を保存できる軽量I2I生成モデルを定義するために,超複素代数特性を活用することを提案する。
論文 参考訳(メタデータ) (2022-05-04T14:28:50Z) - Polarized Self-Attention: Towards High-quality Pixel-wise Regression [19.2303932008785]
本稿では,高画質画素ワイドレグレッションに対する2つの重要な設計を組み込んだPSAブロックを提案する。
実験の結果,PSAは2Dポーズ推定とセマンティックセグメンテーションのベンチマークにおいて,標準ベースラインを2~4ドル,最先端を1~2ドル,さらに2Dポーズ推定とセマンティックセグメンテーションのベンチマークで1~2ドル向上した。
論文 参考訳(メタデータ) (2021-07-02T01:03:11Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - PANDA: A Gigapixel-level Human-centric Video Dataset [74.12377583050142]
大規模・長期・多目的視覚分析のための,最初のギガPixelレベルのフガン中心のViDeo dAtasetであるPANDAを提示する。
PANDAのビデオは、ギガピクセルのカメラで撮影され、広い視野と高解像度の細部の両方で現実世界のシーンをカバーしている。
PANDAは15,974.6kのバウンディングボックス、111.8kの微粒な属性ラベル、12.7kの軌道、2.2kのグループ、2.9kの相互作用を含む、リッチで階層的な基底構造アノテーションを提供する。
論文 参考訳(メタデータ) (2020-03-10T16:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。