論文の概要: LDCA: Local Descriptors with Contextual Augmentation for Few-Shot
Learning
- arxiv url: http://arxiv.org/abs/2401.13499v1
- Date: Wed, 24 Jan 2024 14:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 14:33:12.249809
- Title: LDCA: Local Descriptors with Contextual Augmentation for Few-Shot
Learning
- Title(参考訳): LDCA:Few-Shot Learningのための文脈拡張型ローカルディスクリプタ
- Authors: Maofa Wang and Bingchen Yan
- Abstract要約: LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを導入する。
LDCAは、適応的グローバルな文脈拡張モジュールを活用することで、局所的およびグローバルな理解のギャップを埋める。
実験により,本手法の有効性を実証し,粒度分類データセットの次ベストに対して最大20%の絶対的改善を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot image classification has emerged as a key challenge in the field of
computer vision, highlighting the capability to rapidly adapt to new tasks with
minimal labeled data. Existing methods predominantly rely on image-level
features or local descriptors, often overlooking the holistic context
surrounding these descriptors. In this work, we introduce a novel approach
termed "Local Descriptor with Contextual Augmentation (LDCA)". Specifically,
this method bridges the gap between local and global understanding uniquely by
leveraging an adaptive global contextual enhancement module. This module
incorporates a visual transformer, endowing local descriptors with contextual
awareness capabilities, ranging from broad global perspectives to intricate
surrounding nuances. By doing so, LDCA transcends traditional descriptor-based
approaches, ensuring each local feature is interpreted within its larger visual
narrative. Extensive experiments underscore the efficacy of our method, showing
a maximal absolute improvement of 20\% over the next-best on fine-grained
classification datasets, thus demonstrating significant advancements in
few-shot classification tasks.
- Abstract(参考訳): 画像の分類はコンピュータビジョンの分野で重要な課題として現れ、最小限のラベル付きデータで新しいタスクに迅速に適応する能力を強調している。
既存の手法は主に画像レベルの特徴や局所的な記述子に依存しており、しばしばこれらの記述子を取り巻く全体的文脈を見下ろしている。
本稿では,LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを紹介する。
具体的には,適応型グローバルコンテキスト拡張モジュールを利用することで,局所的理解とグローバル理解のギャップを一意的に橋渡しする。
このモジュールにはビジュアルトランスフォーマーが組み込まれており、広義のグローバルな視点から周囲の複雑なニュアンスまで、文脈認識能力を持つローカルな記述子を備えている。
これによりLDCAは従来の記述子に基づくアプローチを超越し、各局所的特徴がより大きな視覚的物語の中で解釈されるようにする。
本手法の有効性を実証し, 細粒度分類データセットの次値に対する最大絶対値が20\%向上することを示し, 少数の分類タスクにおいて有意な進歩を示した。
関連論文リスト
- GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
本研究では,グローバルおよびローカルなプロンプトの学習を改善するために,局所的なコントラスト学習を導入し,各領域の異常パターンを効果的に検出する。
The generalization performance of GlocalCLIP in ZSAD were demonstrated on 15 real-world datasets from the industrial and medical domain。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。
PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-07T13:06:34Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Simple Image-level Classification Improves Open-vocabulary Object
Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。
近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。
これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文 参考訳(メタデータ) (2023-12-16T13:06:15Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Gait Recognition via Effective Global-Local Feature Representation and
Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。
近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。
歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T04:07:13Z) - Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
論文 参考訳(メタデータ) (2020-07-21T08:46:02Z) - Weakly-supervised Object Localization for Few-shot Learning and
Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。
本稿では,自己認識型補完モジュール(SACモジュール)を提案する。
また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文 参考訳(メタデータ) (2020-03-02T14:07:05Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。