論文の概要: Multi-level Second-order Few-shot Learning
- arxiv url: http://arxiv.org/abs/2201.05916v1
- Date: Sat, 15 Jan 2022 19:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 15:53:13.508539
- Title: Multi-level Second-order Few-shot Learning
- Title(参考訳): 多段階2次Few-shot Learning
- Authors: Hongguang Zhang, Hongdong Li, Piotr Koniusz
- Abstract要約: 教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
- 参考スコア(独自算出の注目度): 111.0648869396828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Multi-level Second-order (MlSo) few-shot learning network for
supervised or unsupervised few-shot image classification and few-shot action
recognition. We leverage so-called power-normalized second-order base learner
streams combined with features that express multiple levels of visual
abstraction, and we use self-supervised discriminating mechanisms. As
Second-order Pooling (SoP) is popular in image recognition, we employ its basic
element-wise variant in our pipeline. The goal of multi-level feature design is
to extract feature representations at different layer-wise levels of CNN,
realizing several levels of visual abstraction to achieve robust few-shot
learning. As SoP can handle convolutional feature maps of varying spatial
sizes, we also introduce image inputs at multiple spatial scales into MlSo. To
exploit the discriminative information from multi-level and multi-scale
features, we develop a Feature Matching (FM) module that reweights their
respective branches. We also introduce a self-supervised step, which is a
discriminator of the spatial level and the scale of abstraction. Our pipeline
is trained in an end-to-end manner. With a simple architecture, we demonstrate
respectable results on standard datasets such as Omniglot, mini-ImageNet,
tiered-ImageNet, Open MIC, fine-grained datasets such as CUB Birds, Stanford
Dogs and Cars, and action recognition datasets such as HMDB51, UCF101, and
mini-MIT.
- Abstract(参考訳): 教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次学習ネットワーク(MlSo)を提案する。
我々は、いわゆるパワー正規化二階ベース学習ストリームと、複数のレベルの視覚抽象化を表現した特徴を組み合わせて活用し、自己教師付き判別機構を用いる。
SoP(Second-order Pooling)は画像認識に人気があるため、パイプラインに基本的な要素ワイドなバリエーションを採用しています。
マルチレベル機能設計の目標は、複数の階層レベルのCNNで特徴表現を抽出し、複数のレベルの視覚的抽象化を実現し、堅牢な数ショット学習を実現することである。
SoPは様々な空間サイズの畳み込み特徴写像を扱えるので、MlSoに複数の空間スケールで画像入力を導入する。
マルチレベルおよびマルチスケールの機能から識別情報を活用すべく,各ブランチを重み付けする特徴マッチング(FM)モジュールを開発した。
また,空間レベルと抽象化のスケールを判別する自己教師付きステップも導入する。
私たちのパイプラインはエンドツーエンドでトレーニングされています。
簡単なアーキテクチャで,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
関連論文リスト
- HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification [15.129037250680582]
厳密な視覚-言語相互作用は、分類性能を改善する上で重要な役割を担っている。
近年のTransformerベースの手法は,マルチラベル画像分類において大きな成功を収めている。
本稿では,2つの魅力ある設計を持つ階層型視標変換器 (HSVLT) を提案する。
論文 参考訳(メタデータ) (2024-07-23T07:31:42Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2020-06-15T18:07:44Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。