論文の概要: MetaFormer: A Unified Meta Framework for Fine-Grained Recognition
- arxiv url: http://arxiv.org/abs/2203.02751v1
- Date: Sat, 5 Mar 2022 14:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:21:46.207549
- Title: MetaFormer: A Unified Meta Framework for Fine-Grained Recognition
- Title(参考訳): MetaFormer: ファイングラインド認識のための統一メタフレームワーク
- Authors: Qishuai Diao, Yi Jiang, Bin Wen, Jia Sun, Zehuan Yuan
- Abstract要約: 視覚的きめ細かい分類のための統一的で強力なメタフレームワークを提案する。
実際にMetaFormerは、視覚と様々なメタ情報の共同学習に対処するための、シンプルで効果的なアプローチを提供する。
実験では、MetaFormerは様々なメタ情報を利用して、きめ細かい認識の性能を向上させることができる。
- 参考スコア(独自算出の注目度): 16.058297377539418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-Grained Visual Classification(FGVC) is the task that requires
recognizing the objects belonging to multiple subordinate categories of a
super-category. Recent state-of-the-art methods usually design sophisticated
learning pipelines to tackle this task. However, visual information alone is
often not sufficient to accurately differentiate between fine-grained visual
categories. Nowadays, the meta-information (e.g., spatio-temporal prior,
attribute, and text description) usually appears along with the images. This
inspires us to ask the question: Is it possible to use a unified and simple
framework to utilize various meta-information to assist in fine-grained
identification? To answer this problem, we explore a unified and strong
meta-framework(MetaFormer) for fine-grained visual classification. In practice,
MetaFormer provides a simple yet effective approach to address the joint
learning of vision and various meta-information. Moreover, MetaFormer also
provides a strong baseline for FGVC without bells and whistles. Extensive
experiments demonstrate that MetaFormer can effectively use various
meta-information to improve the performance of fine-grained recognition. In a
fair comparison, MetaFormer can outperform the current SotA approaches with
only vision information on the iNaturalist2017 and iNaturalist2018 datasets.
Adding meta-information, MetaFormer can exceed the current SotA approaches by
5.9% and 5.3%, respectively. Moreover, MetaFormer can achieve 92.3% and 92.7%
on CUB-200-2011 and NABirds, which significantly outperforms the SotA
approaches. The source code and pre-trained models are released
athttps://github.com/dqshuai/MetaFormer.
- Abstract(参考訳): Fine-Grained Visual Classification (FGVC) は、スーパーカテゴリの複数の下位カテゴリに属するオブジェクトを認識することを必要とするタスクである。
最近の最先端の手法は通常、この課題に取り組むために洗練された学習パイプラインを設計する。
しかし、視覚情報だけでは、きめ細かい視覚カテゴリーを正確に区別するには不十分であることが多い。
今日では、メタ情報(時空間先行、属性、テキスト記述など)が画像とともに現れるのが一般的である。
統一的でシンプルなフレームワークを使用して、さまざまなメタ情報を使用して、きめ細かい識別を支援することは可能ですか?
この問題に対処するため,我々は細粒度視覚分類のための統一的で強力なメタフレームワーク(metaformer)を探索する。
実際にMetaFormerは、視覚と様々なメタ情報の共同学習に対処するための、シンプルで効果的なアプローチを提供する。
さらにMetaFormerは、ベルやホイッスルなしでFGVCに強力なベースラインを提供する。
広範囲な実験により、MetaFormerは様々なメタ情報を利用して、きめ細かい認識の性能を向上させることができる。
公正な比較として、MetaFormerは、iNaturalist2017とiNaturalist2018データセットのビジョン情報のみを使用して、現在のSotAアプローチより優れている。
メタ情報を追加することで、metaformerは現在のsotaアプローチを5.9%と5.3%上回ることができる。
さらに、metaformerはcub-200-2011とnabirdsで92.3%と92.7%を達成できる。
ソースコードと事前トレーニングされたモデルはhttps://github.com/dqshuai/MetaFormer.comで公開されている。
関連論文リスト
- Context-Aware Meta-Learning [52.09326317432577]
本研究では,大規模言語モデルのエミュレートを行うメタ学習アルゴリズムを提案する。
我々のアプローチは、11のメタラーニングベンチマークのうち8つで最先端のアルゴリズムであるP>M>Fを上回り、一致します。
論文 参考訳(メタデータ) (2023-10-17T03:35:27Z) - MetaFormer Baselines for Vision [173.16644649968393]
私たちはMetaFormerのベースラインモデルをいくつか導入し、最も基本的なミキサーや一般的なミキサーを使用します。
MetaFormerはパフォーマンスのしっかりとした低いバウンダリを保証します。
また,新たなアクティベーションであるStarReLUは,GELUと比較してFLOPを減少させるが,性能は向上する。
論文 参考訳(メタデータ) (2022-10-24T17:59:57Z) - MetaFill: Text Infilling for Meta-Path Generation on Heterogeneous
Information Networks [7.501059084460409]
Heterogeneous Information Network (HIN) は、複数のエッジタイプとノードタイプを含む複雑なネットワークを研究するために不可欠である。
既存のメタパス生成アプローチでは、HINのリッチテキスト情報を十分に活用することはできない。
メタパス生成のためのテキスト埋込型アプローチであるMetaFillを提案する。
論文 参考訳(メタデータ) (2022-10-14T03:34:09Z) - Hierarchical Attention Network for Few-Shot Object Detection via
Meta-Contrastive Learning [4.952681349410351]
Few-shot Object Detection (FSOD) は、新しいカテゴリの画像のほとんどを分類し、検出することを目的としている。
本稿では,クエリとサポート画像を完全に活用するために,逐次的に大きな受容領域を持つ階層型アテンションネットワークを提案する。
提案手法は,COCOデータセット上での1-30ショットのオブジェクト検出において,2.3,1.0,1.3,3.4,2.4%のAP改善を実現する。
論文 参考訳(メタデータ) (2022-08-15T07:29:31Z) - Does MAML Only Work via Feature Re-use? A Data Centric Perspective [19.556093984142418]
メタ学習型MAMLの表現機能に光を当てた経験的結果を提供する。
機能再使用の低さをもたらす合成ベンチマークのファミリを定義することが可能であることを示す。
メタラーニングを再考する上での課題は、数ショットの学習データセットとベンチマークの設計にあると推測する。
論文 参考訳(メタデータ) (2021-12-24T20:18:38Z) - Learning Meta-class Memory for Few-Shot Semantic Segmentation [90.28474742651422]
全てのクラスで共有可能なメタ情報であるメタクラスの概念を導入する。
本稿では,メタクラスメモリをベースとした少ショットセグメンテーション手法 (MM-Net) を提案する。
提案したMM-Netは1ショット設定でCOCOデータセット上で37.5%のmIoUを達成する。
論文 参考訳(メタデータ) (2021-08-06T06:29:59Z) - MetaDelta: A Meta-Learning System for Few-shot Image Classification [71.06324527247423]
数ショット画像分類のための新しいメタ学習システムであるMetaDeltaを提案する。
MetaDeltaの各メタラーナーは、バッチトレーニングによって微調整された独自の事前訓練エンコーダと、予測に使用されるパラメータフリーデコーダで構成されている。
論文 参考訳(メタデータ) (2021-02-22T02:57:22Z) - Meta-Baseline: Exploring Simple Meta-Learning for Few-Shot Learning [79.25478727351604]
評価基準に基づいて,分類済みモデル全体に対するメタラーニング(メタラーニング)を提案する。
我々は,この単純な手法が標準ベンチマークにおける最先端手法との競合性能を達成するのを観察する。
論文 参考訳(メタデータ) (2020-03-09T20:06:36Z) - Incremental Meta-Learning via Indirect Discriminant Alignment [118.61152684795178]
メタ学習のメタ学習段階において,段階的な学習の概念を発達させる。
我々のアプローチは、完全なメタトレーニングセットでモデルをトレーニングするのと比べて、テスト時に好適に機能する。
論文 参考訳(メタデータ) (2020-02-11T01:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。