論文の概要: Siamese Transformer Networks for Few-shot Image Classification
- arxiv url: http://arxiv.org/abs/2408.01427v1
- Date: Tue, 16 Jul 2024 14:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 05:08:48.018196
- Title: Siamese Transformer Networks for Few-shot Image Classification
- Title(参考訳): ショーショット画像分類のためのシームズ変圧器ネットワーク
- Authors: Weihao Jiang, Shuoxi Zhang, Kun He,
- Abstract要約: 人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
- 参考スコア(独自算出の注目度): 9.55588609556447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans exhibit remarkable proficiency in visual classification tasks, accurately recognizing and classifying new images with minimal examples. This ability is attributed to their capacity to focus on details and identify common features between previously seen and new images. In contrast, existing few-shot image classification methods often emphasize either global features or local features, with few studies considering the integration of both. To address this limitation, we propose a novel approach based on the Siamese Transformer Network (STN). Our method employs two parallel branch networks utilizing the pre-trained Vision Transformer (ViT) architecture to extract global and local features, respectively. Specifically, we implement the ViT-Small network architecture and initialize the branch networks with pre-trained model parameters obtained through self-supervised learning. We apply the Euclidean distance measure to the global features and the Kullback-Leibler (KL) divergence measure to the local features. To integrate the two metrics, we first employ L2 normalization and then weight the normalized results to obtain the final similarity score. This strategy leverages the advantages of both global and local features while ensuring their complementary benefits. During the training phase, we adopt a meta-learning approach to fine-tune the entire network. Our strategy effectively harnesses the potential of global and local features in few-shot image classification, circumventing the need for complex feature adaptation modules and enhancing the model's generalization ability. Extensive experiments demonstrate that our framework is simple yet effective, achieving superior performance compared to state-of-the-art baselines on four popular few-shot classification benchmarks in both 5-shot and 1-shot scenarios.
- Abstract(参考訳): 人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
この能力は、詳細に集中し、以前の画像と新しい画像の間で共通の特徴を識別する能力に起因している。
対照的に、既存の少数ショット画像分類法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
この制限に対処するため,Samese Transformer Network (STN) に基づく新しいアプローチを提案する。
提案手法では,事前学習した視覚変換器 (ViT) アーキテクチャを用いて,グローバルな特徴と局所的な特徴を抽出する2つの並列分岐ネットワークを用いる。
具体的には、ViT-Smallネットワークアーキテクチャを実装し、自己教師付き学習によって得られた事前学習モデルパラメータを用いて分岐ネットワークを初期化する。
ユークリッド距離測度を大域的特徴に適用し,KL(Kulback-Leibler)偏差測度を局所特徴量に適用する。
2つの指標を統合するために、まずL2正規化を用い、次に正規化結果を重み付けして最終的な類似度スコアを得る。
この戦略は、グローバル機能とローカル機能の両方の利点を生かし、相補的なメリットを保証します。
トレーニングフェーズでは、ネットワーク全体を微調整するメタラーニングアプローチを採用しています。
本戦略は, 複雑な特徴適応モジュールの必要性を回避し, モデルの一般化能力を高めることを目的として, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
大規模な実験により、我々のフレームワークはシンプルで有効であり、5ショットと1ショットの両方のシナリオで人気のある4つの数ショット分類ベンチマークの最先端のベースラインよりも優れたパフォーマンスを実現していることが示された。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Keypoint-Augmented Self-Supervised Learning for Medical Image
Segmentation with Limited Annotation [21.203307064937142]
本稿では,短距離と長距離の両方の自己注意を保った表現を抽出するキーポイント拡張融合層を提案する。
特に,長距離空間の自己意識を学習する追加入力を組み込むことで,CNN機能マップを複数スケールで拡張する。
提案手法は,より堅牢な自己アテンションを生成することにより,既存のSSLメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-10-02T22:31:30Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - VICRegL: Self-Supervised Learning of Local Visual Features [34.92750644059916]
本稿では,局所的な特徴とグローバルな特徴の学習における基本的なトレードオフについて考察する。
グローバルな特徴とローカルな特徴を同時に学習するVICRegLと呼ばれる新しい手法が提案されている。
線形分類とセグメンテーション伝達タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2022-10-04T12:54:25Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Re-rank Coarse Classification with Local Region Enhanced Features for
Fine-Grained Image Recognition [22.83821575990778]
そこで我々は,Top1の精度を向上させるため,TopN分類結果を局所的に拡張した埋め込み機能を用いて再評価した。
より効果的なセマンティクスグローバル機能を学ぶために、我々は、自動構築された階層的カテゴリ構造上のマルチレベル損失をデザインする。
本手法は,cub-200-2011,stanford cars,fgvc aircraftの3つのベンチマークで最新性能を実現する。
論文 参考訳(メタデータ) (2021-02-19T11:30:25Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - ReMarNet: Conjoint Relation and Margin Learning for Small-Sample Image
Classification [49.87503122462432]
ReMarNet(Relation-and-Margin Learning Network)と呼ばれるニューラルネットワークを導入する。
本手法は,上記2つの分類機構の双方において優れた性能を発揮する特徴を学習するために,異なるバックボーンの2つのネットワークを組み立てる。
4つの画像データセットを用いた実験により,本手法はラベル付きサンプルの小さな集合から識別的特徴を学習するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-06-27T13:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。