論文の概要: Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition
- arxiv url: http://arxiv.org/abs/2305.07180v2
- Date: Thu, 14 Sep 2023 07:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:01:33.592852
- Title: Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition
- Title(参考訳): ファウショットきめ細かな視覚認識のためのロバスト・サリエンシ・アウェア蒸留法
- Authors: Haiqi Liu, C. L. Philip Chen, Xinrong Gong and Tong Zhang
- Abstract要約: サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では、数発のきめ細かい視覚認識のためのRSaGと呼ばれる新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 57.08108545219043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing novel sub-categories with scarce samples is an essential and
challenging research topic in computer vision. Existing literature addresses
this challenge by employing local-based representation approaches, which may
not sufficiently facilitate meaningful object-specific semantic understanding,
leading to a reliance on apparent background correlations. Moreover, they
primarily rely on high-dimensional local descriptors to construct complex
embedding space, potentially limiting the generalization. To address the above
challenges, this article proposes a novel model called RSaG for few-shot
fine-grained visual recognition. RSaG introduces additional saliency-aware
supervision via saliency detection to guide the model toward focusing on the
intrinsic discriminative regions. Specifically, RSaG utilizes the saliency
detection model to emphasize the critical regions of each sub-category,
providing additional object-specific information for fine-grained prediction.
RSaG transfers such information with two symmetric branches in a mutual
learning paradigm. Furthermore, RSaG exploits inter-regional relationships to
enhance the informativeness of the representation and subsequently summarize
the highlighted details into contextual embeddings to facilitate the effective
transfer, enabling quick generalization to novel sub-categories. The proposed
approach is empirically evaluated on three widely used benchmarks,
demonstrating its superior performance.
- Abstract(参考訳): サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献では、意味のあるオブジェクト固有の意味理解を十分に促進しない局所的な表現アプローチを採用することで、この課題に対処している。
さらに、それらは主に高次元局所ディスクリプタに依存して複雑な埋め込み空間を構築し、一般化を制限している。
上記の課題に対処するため,本論文では,数発のきめ細かい視覚認識のためのRSaGと呼ばれる新しいモデルを提案する。
rsagは、saliency detection(saliency detection)による追加のsaliency-aware supervisor(saliency-aware supervisor)を導入する。
具体的には、rsagはsaliency detectionモデルを使用して、各サブカテゴリの重要な領域を強調し、詳細な予測のためのオブジェクト固有の情報を提供する。
RSaGは、これらの情報を2つの対称分岐で相互学習パラダイムで伝達する。
さらに、RSaGは地域間関係を利用して表現の情報性を高めるとともに、強調された詳細を文脈埋め込みにまとめて効果的転送を容易にし、新しいサブカテゴリへの迅速な一般化を可能にする。
提案手法は3つのベンチマークで実証的に評価され,優れた性能を示す。
関連論文リスト
- Towards Human-Like Machine Comprehension: Few-Shot Relational Learning in Visually-Rich Documents [16.78371134590167]
Visually-Rich Documents (VRDs) ではキーバリュー関係が一般的である
これらの非テクスト的手がかりは、人間の理解とそのような関係三重項の獲得を大幅に促進する重要な指標となる。
本研究は,VRDにおけるキー-値関係三重項の抽出を目的とした,数発のリレーショナル学習に焦点を当てた。
論文 参考訳(メタデータ) (2024-03-23T08:40:35Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Semantic Reinforced Attention Learning for Visual Place Recognition [15.84086970453363]
大規模な視覚的位置認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難である。
本稿では,セマンティック強化型注意学習ネットワーク(SRALNet)を提案する。
都市規模のVPRベンチマークデータセットにおいて,本手法が最先端技術より優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-08-19T02:14:36Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Improve the Interpretability of Attention: A Fast, Accurate, and
Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。
提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。
また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文 参考訳(メタデータ) (2021-06-04T15:57:37Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z) - Learning Domain Invariant Representations for Generalizable Person
Re-Identification [71.35292121563491]
ReID(Generalizable person Re-Identification)は、最近のコンピュータビジョンコミュニティで注目を集めている。
DIR-ReID(Domain Invariant Representations for Generalizable Person Re-Identification)という新しい一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。