論文の概要: Learning Cross-Image Object Semantic Relation in Transformer for
Few-Shot Fine-Grained Image Classification
- arxiv url: http://arxiv.org/abs/2207.00784v1
- Date: Sat, 2 Jul 2022 09:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 14:38:25.183269
- Title: Learning Cross-Image Object Semantic Relation in Transformer for
Few-Shot Fine-Grained Image Classification
- Title(参考訳): 数ショット細粒画像分類のためのトランスフォーマにおけるクロスイメージオブジェクト意味関係の学習
- Authors: Bo Zhang, Jiakang Yuan, Baopu Li, Tao Chen, Jiayuan Fan, Botian Shi
- Abstract要約: わずかなきめ細かい学習は、クエリイメージを、きめ細かい違いのあるサポートカテゴリの1つに分類することを目的としている。
本稿では,トランスフォーマーをベースとした2重ヘリックスモデル,すなわちHelixFormerを提案し,クロスイメージオブジェクトのセマンティックリレーションマイニングを実現する。
- 参考スコア(独自算出の注目度): 30.643719404492398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot fine-grained learning aims to classify a query image into one of a
set of support categories with fine-grained differences. Although learning
different objects' local differences via Deep Neural Networks has achieved
success, how to exploit the query-support cross-image object semantic relations
in Transformer-based architecture remains under-explored in the few-shot
fine-grained scenario. In this work, we propose a Transformer-based
double-helix model, namely HelixFormer, to achieve the cross-image object
semantic relation mining in a bidirectional and symmetrical manner. The
HelixFormer consists of two steps: 1) Relation Mining Process (RMP) across
different branches, and 2) Representation Enhancement Process (REP) within each
individual branch. By the designed RMP, each branch can extract fine-grained
object-level Cross-image Semantic Relation Maps (CSRMs) using information from
the other branch, ensuring better cross-image interaction in semantically
related local object regions. Further, with the aid of CSRMs, the developed REP
can strengthen the extracted features for those discovered semantically-related
local regions in each branch, boosting the model's ability to distinguish
subtle feature differences of fine-grained objects. Extensive experiments
conducted on five public fine-grained benchmarks demonstrate that HelixFormer
can effectively enhance the cross-image object semantic relation matching for
recognizing fine-grained objects, achieving much better performance over most
state-of-the-art methods under 1-shot and 5-shot scenarios. Our code is
available at: https://github.com/JiakangYuan/HelixFormer
- Abstract(参考訳): わずかなきめ細かい学習は、クエリイメージを細かい違いのあるサポートカテゴリの1つに分類することを目的としている。
ディープニューラルネットワークによる異なるオブジェクトの局所的な違いの学習は成功したが、トランスフォーマティブベースのアーキテクチャにおけるクエリサポートのクロスイメージオブジェクトセマンティクス関係をどのように活用するかは、わずかな詳細シナリオでは未検討のままである。
本研究では,双方向かつ対称な方法で画像間のオブジェクト意味関係マイニングを実現するためのトランスフォーマティブに基づく2重ヘリックスモデル,helixformerを提案する。
HelixFormerは2つのステップから構成される。
1)別枝間の関係マイニングプロセス(rmp)
2) 各部門内での表現促進プロセス(REP)
設計されたRMPにより、各ブランチは、他のブランチからの情報を用いて、細粒度オブジェクトレベルのクロスイメージセマンティックリレーショナルマップ(CSRM)を抽出し、セマンティック関連ローカルオブジェクト領域におけるより良いクロスイメージインタラクションを実現する。
さらに,csrmsの支援により,各ブランチで検出された意味的に関連した局所領域の抽出特徴を強化し,細粒度オブジェクトの微妙な特徴差を識別するモデルの能力を高めた。
5つの公開きめのベンチマークで実施された大規模な実験により、HelixFormerは、細粒度オブジェクトを認識するためのクロスイメージオブジェクトセマンティックリレーションマッチングを効果的に強化し、1ショットと5ショットのシナリオ下でのほとんどの最先端メソッドよりもはるかに優れたパフォーマンスを実現している。
私たちのコードは、https://github.com/JiakangYuan/HelixFormerで利用可能です。
関連論文リスト
- Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:49:58Z) - A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Integrating Visual and Semantic Similarity Using Hierarchies for Image
Retrieval [0.46040036610482665]
視覚的階層構造を用いて視覚的および意味的類似性の両方をキャプチャするCBIRの手法を提案する。
階層構造は、分類のために訓練されたディープニューラルネットワークの潜在空間に重複する特徴を持つクラスをマージすることによって構築される。
本手法は,既存の画像検索手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-16T15:23:14Z) - Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph [27.77392307623526]
マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
論文 参考訳(メタデータ) (2022-08-19T16:04:29Z) - Multi-similarity based Hyperrelation Network for few-shot segmentation [2.306100133614193]
ほとんどショットのセマンティックセグメンテーションは、見知らぬカテゴリのオブジェクト領域を、いくつかの例で認識することを目的としている。
本稿では,MSHNet(Multi-similarity Hyperrelation Network)を提案する。
論文 参考訳(メタデータ) (2022-03-17T18:16:52Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。