論文の概要: ResNeSt: Split-Attention Networks
- arxiv url: http://arxiv.org/abs/2004.08955v2
- Date: Wed, 30 Dec 2020 05:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 00:21:37.572970
- Title: ResNeSt: Split-Attention Networks
- Title(参考訳): ResNeSt: 分割アテンションネットワーク
- Authors: Hang Zhang, Chongruo Wu, Zhongyue Zhang, Yi Zhu, Haibin Lin, Zhi
Zhang, Yue Sun, Tong He, Jonas Mueller, R. Manmatha, Mu Li, Alexander Smola
- Abstract要約: このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
- 参考スコア(独自算出の注目度): 86.25490825631763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well known that featuremap attention and multi-path representation are
important for visual recognition. In this paper, we present a modularized
architecture, which applies the channel-wise attention on different network
branches to leverage their success in capturing cross-feature interactions and
learning diverse representations. Our design results in a simple and unified
computation block, which can be parameterized using only a few variables. Our
model, named ResNeSt, outperforms EfficientNet in accuracy and latency
trade-off on image classification. In addition, ResNeSt has achieved superior
transfer learning results on several public benchmarks serving as the backbone,
and has been adopted by the winning entries of COCO-LVIS challenge. The source
code for complete system and pretrained models are publicly available.
- Abstract(参考訳): 特徴マップの注意とマルチパス表現が視覚認識に重要であることはよく知られている。
本稿では,異なるネットワークブランチにチャネル毎の注意を向け,機能横断的なインタラクションを捉え,多様な表現を学習するモジュラー化アーキテクチャを提案する。
我々の設計は単純で統一された計算ブロックとなり、少数の変数だけでパラメータ化できる。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
さらに、ResNeStはバックボーンとして機能するいくつかの公開ベンチマークにおいて優れた転送学習結果を達成しており、COCO-LVISチャレンジの勝者として採用されている。
完全なシステムと事前訓練されたモデルのソースコードが公開されている。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Deep Dependency Networks and Advanced Inference Schemes for Multi-Label Classification [7.643377057724898]
我々は、ディープ・ディペンデンス・ネットワーク(DDN)と呼ばれる統合されたフレームワークを提案する。
DDNは依存ネットワークと深層学習アーキテクチャを組み合わせてマルチラベル分類を行う。
マルコフネットワークと比較してDDNの欠点は、高度な推論スキームがないことである。
論文 参考訳(メタデータ) (2024-04-17T18:04:37Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Deep Dependency Networks for Multi-Label Classification [24.24496964886951]
マルコフ確率場とニューラルネットワークを組み合わせた従来の手法の性能は、わずかに改善できることを示す。
我々は、依存性ネットワークを拡張するディープ依存ネットワークと呼ばれる新しいモデリングフレームワークを提案する。
単純さにもかかわらず、この新しいアーキテクチャを共同学習することで、パフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-02-01T17:52:40Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Embedded Self-Distillation in Compact Multi-Branch Ensemble Network for
Remote Sensing Scene Classification [17.321718779142817]
本稿では,特徴表現能力を向上させるマルチブランチアンサンブルネットワークを提案する。
自己蒸留法(SD)を組み込んで,アンサンブルネットワークからメインブランチへ知識を伝達する。
その結果,提案するESD-MBENetは,従来のSOTA(State-of-the-art)モデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-04-01T03:08:52Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。