論文の概要: LDCA: Local Descriptors with Contextual Augmentation for Few-Shot
Learning
- arxiv url: http://arxiv.org/abs/2401.13499v1
- Date: Wed, 24 Jan 2024 14:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 14:33:12.249809
- Title: LDCA: Local Descriptors with Contextual Augmentation for Few-Shot
Learning
- Title(参考訳): LDCA:Few-Shot Learningのための文脈拡張型ローカルディスクリプタ
- Authors: Maofa Wang and Bingchen Yan
- Abstract要約: LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを導入する。
LDCAは、適応的グローバルな文脈拡張モジュールを活用することで、局所的およびグローバルな理解のギャップを埋める。
実験により,本手法の有効性を実証し,粒度分類データセットの次ベストに対して最大20%の絶対的改善を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot image classification has emerged as a key challenge in the field of
computer vision, highlighting the capability to rapidly adapt to new tasks with
minimal labeled data. Existing methods predominantly rely on image-level
features or local descriptors, often overlooking the holistic context
surrounding these descriptors. In this work, we introduce a novel approach
termed "Local Descriptor with Contextual Augmentation (LDCA)". Specifically,
this method bridges the gap between local and global understanding uniquely by
leveraging an adaptive global contextual enhancement module. This module
incorporates a visual transformer, endowing local descriptors with contextual
awareness capabilities, ranging from broad global perspectives to intricate
surrounding nuances. By doing so, LDCA transcends traditional descriptor-based
approaches, ensuring each local feature is interpreted within its larger visual
narrative. Extensive experiments underscore the efficacy of our method, showing
a maximal absolute improvement of 20\% over the next-best on fine-grained
classification datasets, thus demonstrating significant advancements in
few-shot classification tasks.
- Abstract(参考訳): 画像の分類はコンピュータビジョンの分野で重要な課題として現れ、最小限のラベル付きデータで新しいタスクに迅速に適応する能力を強調している。
既存の手法は主に画像レベルの特徴や局所的な記述子に依存しており、しばしばこれらの記述子を取り巻く全体的文脈を見下ろしている。
本稿では,LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを紹介する。
具体的には,適応型グローバルコンテキスト拡張モジュールを利用することで,局所的理解とグローバル理解のギャップを一意的に橋渡しする。
このモジュールにはビジュアルトランスフォーマーが組み込まれており、広義のグローバルな視点から周囲の複雑なニュアンスまで、文脈認識能力を持つローカルな記述子を備えている。
これによりLDCAは従来の記述子に基づくアプローチを超越し、各局所的特徴がより大きな視覚的物語の中で解釈されるようにする。
本手法の有効性を実証し, 細粒度分類データセットの次値に対する最大絶対値が20\%向上することを示し, 少数の分類タスクにおいて有意な進歩を示した。
関連論文リスト
- Globality Strikes Back: Rethinking the Global Knowledge of CLIP in Training-Free Open-Vocabulary Semantic Segmentation [5.3499687969383345]
最近の研究は、CLIPを修正して、トレーニング不要な方法でセマンティックセグメンテーションを行う(TF-OVSS)。
これらの変更により、CLIPがグローバルコンテキスト情報を集約する能力は大きく低下する。
TF-OVSSタスクを促進するために,CLIPの有益なグローバル知識をマイニングするGCLIPという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-05T03:37:50Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。
PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-07T13:06:34Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
論文 参考訳(メタデータ) (2020-07-21T08:46:02Z) - Weakly-supervised Object Localization for Few-shot Learning and
Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。
本稿では,自己認識型補完モジュール(SACモジュール)を提案する。
また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文 参考訳(メタデータ) (2020-03-02T14:07:05Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。