論文の概要: Learning Dynamic Alignment via Meta-filter for Few-shot Learning
- arxiv url: http://arxiv.org/abs/2103.13582v1
- Date: Thu, 25 Mar 2021 03:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 22:54:15.175991
- Title: Learning Dynamic Alignment via Meta-filter for Few-shot Learning
- Title(参考訳): ファウショット学習のためのメタフィルタによる動的アライメントの学習
- Authors: Chengming Xu, Chen Liu, Li Zhang, Chengjie Wang, Jilin Li, Feiyue
Huang, Xiangyang Xue, Yanwei Fu
- Abstract要約: 少ないショット学習は、学習知識を極めて限定的な(サポート)例で適応させることで、新しいクラスを認識することを目的としている。
異なるローカルサポート情報に従って、クエリ領域とチャネルの両方を効果的に強調表示できる動的アライメントを学びます。
結果として得られたフレームワークは、主要な数発の視覚認識ベンチマークに最新技術を確立します。
- 参考スコア(独自算出の注目度): 94.41887992982986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot learning (FSL), which aims to recognise new classes by adapting the
learned knowledge with extremely limited few-shot (support) examples, remains
an important open problem in computer vision. Most of the existing methods for
feature alignment in few-shot learning only consider image-level or
spatial-level alignment while omitting the channel disparity. Our insight is
that these methods would lead to poor adaptation with redundant matching, and
leveraging channel-wise adjustment is the key to well adapting the learned
knowledge to new classes. Therefore, in this paper, we propose to learn a
dynamic alignment, which can effectively highlight both query regions and
channels according to different local support information. Specifically, this
is achieved by first dynamically sampling the neighbourhood of the feature
position conditioned on the input few shot, based on which we further predict a
both position-dependent and channel-dependent Dynamic Meta-filter. The filter
is used to align the query feature with position-specific and channel-specific
knowledge. Moreover, we adopt Neural Ordinary Differential Equation (ODE) to
enable a more accurate control of the alignment. In such a sense our model is
able to better capture fine-grained semantic context of the few-shot example
and thus facilitates dynamical knowledge adaptation for few-shot learning. The
resulting framework establishes the new state-of-the-arts on major few-shot
visual recognition benchmarks, including miniImageNet and tieredImageNet.
- Abstract(参考訳): FSL(Few-shot Learning)は、学習知識を極めて限定的な(サポートされた)例で適用することで、新しいクラスを認識することを目的としている。
少数ショット学習における機能アライメントの既存の方法のほとんどは、画像レベルのアライメントや空間レベルのアライメントのみを考慮しつつ、チャネルの差異を省略している。
我々の考えでは、これらの手法は冗長なマッチングによる適応が不十分になり、学習した知識を新しいクラスに適切に適応させる鍵となる。
そこで本稿では,異なるローカルサポート情報に基づいて,クエリ領域とチャネルの両方を効果的にハイライトできる動的アライメントの学習を提案する。
具体的には、まず入力数ショットで条件付けられた特徴位置の近傍を動的にサンプリングし、それに基づいて位置依存とチャネル依存の両方の動的メタフィルタを予測する。
このフィルタは、クエリ機能と位置特化およびチャネル特化知識の整合に使用される。
さらに、より正確なアライメント制御を可能にするために、ニューラル正規微分方程式(ODE)を採用する。
このような意味で、我々のモデルは、少数ショット例のきめ細かいセマンティックコンテキストをより正確に把握することができ、したがって、数ショット学習のための動的知識適応を容易にする。
結果として得られたフレームワークは、miniimagenetやtieredimagenetなど、主要な数少ないビジュアル認識ベンチマークで最新技術を確立している。
関連論文リスト
- Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。
シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。
ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文 参考訳(メタデータ) (2024-10-25T06:59:11Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Weakly-supervised Representation Learning for Video Alignment and
Analysis [16.80278496414627]
本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
論文 参考訳(メタデータ) (2023-02-08T14:01:01Z) - Learning to Affiliate: Mutual Centralized Learning for Few-shot
Classification [33.19451499073551]
少ないショット学習は、トレーニング中に見えない新しいタスクに容易に適応できる分類器を学習することを目的としている。
最近の手法では、混合グローバル機能を使う代わりに、局所的な特徴の集合を使って画像を密に表現する傾向がある。
論文 参考訳(メタデータ) (2021-06-10T06:16:00Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。