論文の概要: Saliency-Guided Mutual Learning Network for Few-shot Fine-grained Visual
Recognition
- arxiv url: http://arxiv.org/abs/2305.07180v1
- Date: Fri, 12 May 2023 00:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:27:39.266737
- Title: Saliency-Guided Mutual Learning Network for Few-shot Fine-grained Visual
Recognition
- Title(参考訳): ファウショットきめ細かな視覚認識のためのサリエンシ誘導型相互学習ネットワーク
- Authors: Haiqi Liu, C. L. Philip Chen, Xinrong Gong and Tong Zhang
- Abstract要約: 本稿では,数発のきめ細かな視覚認識のためのSGML-Netという新しいフレームワークを提案する。
SGML-Netは、相性検出による補助情報を組み込んで、識別的表現学習を誘導する。
提案手法は広範に使用されている3つのベンチマークで実験的に評価され、その優れた性能を示す。
- 参考スコア(独自算出の注目度): 68.20811191142148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing novel sub-categories with scarce samples is an essential and
challenging research topic in computer vision. Existing literature focus on
addressing this challenge through global-based or local-based representation
approaches. The former employs global feature representations for
recognization, which may lack fine-grained information. The latter captures
local relationships with complex structures, possibly leading to high model
complexity. To address the above challenges, this article proposes a novel
framework called SGML-Net for few-shot fine-grained visual recognition.
SGML-Net incorporates auxiliary information via saliency detection to guide
discriminative representation learning, achieving high performance and low
model complexity. Specifically, SGML-Net utilizes the saliency detection model
to emphasize the key regions of each sub-category, providing a strong prior for
representation learning. SGML-Net transfers such prior with two independent
branches in a mutual learning paradigm. To achieve effective transfer, SGML-Net
leverages the relationships among different regions, making the representation
more informative and thus providing better guidance. The auxiliary branch is
excluded upon the transfer's completion, ensuring low model complexity in
deployment. The proposed approach is empirically evaluated on three widely-used
benchmarks, demonstrating its superior performance.
- Abstract(参考訳): サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、グローバルベースまたはローカルベースの表現アプローチを通じてこの問題に対処することに焦点を当てている。
前者はグローバルな特徴表現を認識に用いており、微細な情報を欠いている可能性がある。
後者は複雑な構造との局所的な関係を捉え、おそらく高いモデルの複雑さをもたらす。
上記の課題に対処するため,本稿では,数発のきめ細かい視覚認識のためのSGML-Netという新しいフレームワークを提案する。
sgml-netは、saliency detectionによる補助情報を組み込んで識別表現学習を指導し、高性能かつ低モデルの複雑さを達成する。
具体的には、SGML-Netは、サリエンシ検出モデルを用いて、各サブカテゴリの重要領域を強調する。
SGML-Netは、2つの独立したブランチを相互学習パラダイムで前もって転送する。
効率的な転送を実現するため、SGML-Netは異なる領域間の関係を利用して表現をより情報的にし、より良いガイダンスを提供する。
補助ブランチは転送完了時に除外され、デプロイにおけるモデルの複雑さが低下する。
提案手法は, 広く使用されている3つのベンチマークで実証的に評価され, 優れた性能を示す。
関連論文リスト
- Towards Human-Like Machine Comprehension: Few-Shot Relational Learning in Visually-Rich Documents [16.78371134590167]
Visually-Rich Documents (VRDs) ではキーバリュー関係が一般的である
これらの非テクスト的手がかりは、人間の理解とそのような関係三重項の獲得を大幅に促進する重要な指標となる。
本研究は,VRDにおけるキー-値関係三重項の抽出を目的とした,数発のリレーショナル学習に焦点を当てた。
論文 参考訳(メタデータ) (2024-03-23T08:40:35Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Semantic Reinforced Attention Learning for Visual Place Recognition [15.84086970453363]
大規模な視覚的位置認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難である。
本稿では,セマンティック強化型注意学習ネットワーク(SRALNet)を提案する。
都市規模のVPRベンチマークデータセットにおいて,本手法が最先端技術より優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-08-19T02:14:36Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Improve the Interpretability of Attention: A Fast, Accurate, and
Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。
提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。
また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文 参考訳(メタデータ) (2021-06-04T15:57:37Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z) - Learning Domain Invariant Representations for Generalizable Person
Re-Identification [71.35292121563491]
ReID(Generalizable person Re-Identification)は、最近のコンピュータビジョンコミュニティで注目を集めている。
DIR-ReID(Domain Invariant Representations for Generalizable Person Re-Identification)という新しい一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。