論文の概要: LambdaNetworks: Modeling Long-Range Interactions Without Attention
- arxiv url: http://arxiv.org/abs/2102.08602v1
- Date: Wed, 17 Feb 2021 06:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:46:01.452162
- Title: LambdaNetworks: Modeling Long-Range Interactions Without Attention
- Title(参考訳): LambdaNetworks: 注意せずに長距離インタラクションをモデル化する
- Authors: Irwan Bello
- Abstract要約: 入力と構造化されたコンテキスト情報間の長距離相互作用をキャプチャするためのレイヤ - 自己意識に代わるフレームワーク - を提示する。
ラムダ層は、利用可能なコンテキストを線形関数(COCO)に変換することで、そのような相互作用を捕捉する。
コンテンツと位置ベースのインタラクションの両方をモデル化し、画像などの大規模な構造化された入力に適用します。
- 参考スコア(独自算出の注目度): 3.459216990820884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present lambda layers -- an alternative framework to self-attention -- for
capturing long-range interactions between an input and structured contextual
information (e.g. a pixel surrounded by other pixels). Lambda layers capture
such interactions by transforming available contexts into linear functions,
termed lambdas, and applying these linear functions to each input separately.
Similar to linear attention, lambda layers bypass expensive attention maps, but
in contrast, they model both content and position-based interactions which
enables their application to large structured inputs such as images. The
resulting neural network architectures, LambdaNetworks, significantly
outperform their convolutional and attentional counterparts on ImageNet
classification, COCO object detection and COCO instance segmentation, while
being more computationally efficient. Additionally, we design LambdaResNets, a
family of hybrid architectures across different scales, that considerably
improves the speed-accuracy tradeoff of image classification models.
LambdaResNets reach excellent accuracies on ImageNet while being 3.2 - 4.4x
faster than the popular EfficientNets on modern machine learning accelerators.
When training with an additional 130M pseudo-labeled images, LambdaResNets
achieve up to a 9.5x speed-up over the corresponding EfficientNet checkpoints.
- Abstract(参考訳): 我々は、入力と構造化されたコンテキスト情報間の長距離相互作用をキャプチャするためのラムダ層 - セルフアテンテンションの代替フレームワーク - を提示する。
他のピクセルに囲まれたピクセル)
Lambdaレイヤは、利用可能なコンテキストを線形関数(ラムダと呼ばれる)に変換し、これらの線形関数を各入力に個別に適用することで、そのような相互作用をキャプチャする。
線形アテンションと同様に、ラムダレイヤは高価なアテンションマップをバイパスするが、対照的に、コンテンツと位置ベースのインタラクションの両方をモデル化し、画像などの大きな構造化インプットに応用することができる。
結果として得られたニューラルネットワークアーキテクチャであるLambdaNetworksは、ImageNet分類、COCOオブジェクト検出、COCOインスタンスセグメンテーションにおける畳み込みと注目の対比を大幅に上回り、計算効率が向上した。
さらに、異なるスケールにわたるハイブリッドアーキテクチャのファミリーであるLambdaResNetsを設計し、画像分類モデルの速度-精度トレードオフを大幅に改善する。
LambdaResNetは、最新の機械学習アクセラレータの一般的なEfficientNetよりも3.2 - 4.4倍速く、ImageNetで優れた評価を得ています。
追加の130万の擬似ラベル画像でトレーニングする場合、LambdaResNetは対応するEfficientNetチェックポイントに対して最大9.5倍のスピードアップを達成します。
関連論文リスト
- InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。
既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。
これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T08:57:00Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Efficient Representation Learning via Adaptive Context Pooling [15.673260849127695]
自己注意機構は、個々のトークンによって定義された固定された注意の粒度を仮定するが、これはより高いレベルで複雑な依存関係をモデル化するのに最適ではないかもしれない。
トークン毎の注意の粒度を適応させることにより,この問題に対処するContextPoolを提案する。
ContextPoolは、注意モデルをより表現豊かにし、しばしば少ないレイヤで強力なパフォーマンスを実現し、その結果、コストを大幅に削減します。
論文 参考訳(メタデータ) (2022-07-05T07:10:31Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in
Image Classification [46.885260723836865]
ディープ畳み込みニューラルネットワーク (Deep Convolutional Neural Network, CNN) は、高解像度画像で処理することで一般的に改善される。
画像中のすべての領域がタスク関連であるとは限らないという事実に着想を得て,効率的な画像分類を行う新しいフレームワークを提案する。
我々のフレームワークは、最先端の軽量CNNの多くと互換性があり、汎用的で柔軟です。
論文 参考訳(メタデータ) (2020-10-11T17:55:06Z) - Attentional Feature Fusion [4.265244011052538]
本稿では,一様で汎用的な特徴融合手法を提案する。
我々のモデルは、CIFAR-100とImageNetのデータセットで最先端のネットワークより優れていることを示す。
論文 参考訳(メタデータ) (2020-09-29T15:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。