Fugu-MT 論文翻訳(概要): LDCA: Local Descriptors with Contextual Augmentation for Few-Shot Learning

論文の概要: LDCA: Local Descriptors with Contextual Augmentation for Few-Shot Learning

arxiv url: http://arxiv.org/abs/2401.13499v1
Date: Wed, 24 Jan 2024 14:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 14:33:12.249809
Title: LDCA: Local Descriptors with Contextual Augmentation for Few-Shot Learning
Title（参考訳）: LDCA:Few-Shot Learningのための文脈拡張型ローカルディスクリプタ
Authors: Maofa Wang and Bingchen Yan
Abstract要約: LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを導入する。 LDCAは、適応的グローバルな文脈拡張モジュールを活用することで、局所的およびグローバルな理解のギャップを埋める。実験により,本手法の有効性を実証し,粒度分類データセットの次ベストに対して最大20%の絶対的改善を示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot image classification has emerged as a key challenge in the field of computer vision, highlighting the capability to rapidly adapt to new tasks with minimal labeled data. Existing methods predominantly rely on image-level features or local descriptors, often overlooking the holistic context surrounding these descriptors. In this work, we introduce a novel approach termed "Local Descriptor with Contextual Augmentation (LDCA)". Specifically, this method bridges the gap between local and global understanding uniquely by leveraging an adaptive global contextual enhancement module. This module incorporates a visual transformer, endowing local descriptors with contextual awareness capabilities, ranging from broad global perspectives to intricate surrounding nuances. By doing so, LDCA transcends traditional descriptor-based approaches, ensuring each local feature is interpreted within its larger visual narrative. Extensive experiments underscore the efficacy of our method, showing a maximal absolute improvement of 20\% over the next-best on fine-grained classification datasets, thus demonstrating significant advancements in few-shot classification tasks.
Abstract（参考訳）: 画像の分類はコンピュータビジョンの分野で重要な課題として現れ、最小限のラベル付きデータで新しいタスクに迅速に適応する能力を強調している。既存の手法は主に画像レベルの特徴や局所的な記述子に依存しており、しばしばこれらの記述子を取り巻く全体的文脈を見下ろしている。本稿では,LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを紹介する。具体的には,適応型グローバルコンテキスト拡張モジュールを利用することで,局所的理解とグローバル理解のギャップを一意的に橋渡しする。このモジュールにはビジュアルトランスフォーマーが組み込まれており、広義のグローバルな視点から周囲の複雑なニュアンスまで、文脈認識能力を持つローカルな記述子を備えている。これによりLDCAは従来の記述子に基づくアプローチを超越し、各局所的特徴がより大きな視覚的物語の中で解釈されるようにする。本手法の有効性を実証し, 細粒度分類データセットの次値に対する最大絶対値が20\%向上することを示し, 少数の分類タスクにおいて有意な進歩を示した。

関連論文リスト

Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。 ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文参考訳（メタデータ） (2025-08-02T12:14:29Z)
Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文参考訳（メタデータ） (2025-07-30T20:06:01Z)
Helping CLIP See Both the Forest and the Trees: A Decomposition and Description Approach [43.419607730361996]
CLIPのようなビジョンランゲージモデル(VLM)は、対照的な学習を通じて、横断的なアライメントを実現する。伝統的なプロンプトエンジニアリングは、きめ細かいカテゴリラベルに依存しており、きめ細かい局所的意味論を無視している。そこで我々は,CLIPが局所化された視覚ディスクリプタを処理できるプラグイン・アンド・プレイソリューションを提案する。
論文参考訳（メタデータ） (2025-07-04T10:24:26Z)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
本研究では,グローバルおよびローカルなプロンプトの学習を改善するために,局所的なコントラスト学習を導入し,各領域の異常パターンを効果的に検出する。 The generalization performance of GlocalCLIP in ZSAD were demonstrated on 15 real-world datasets from the industrial and medical domain。
論文参考訳（メタデータ） (2024-11-09T05:22:13Z)
DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。 DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文参考訳（メタデータ） (2024-09-24T06:51:49Z)
Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。 PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文参考訳（メタデータ） (2024-07-07T13:06:34Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Simple Image-level Classification Improves Open-vocabulary Object Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文参考訳（メタデータ） (2023-12-16T13:06:15Z)
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。 VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文参考訳（メタデータ） (2022-10-09T01:49:58Z)
Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文参考訳（メタデータ） (2021-08-20T14:02:38Z)
Gait Recognition via Effective Global-Local Feature Representation and Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-03T04:07:13Z)
Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。提案手法をMS-COCOデータセット上で評価した。
論文参考訳（メタデータ） (2020-07-21T08:46:02Z)
Weakly-supervised Object Localization for Few-shot Learning and Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。本稿では,自己認識型補完モジュール(SACモジュール)を提案する。また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文参考訳（メタデータ） (2020-03-02T14:07:05Z)
Global Context-Aware Progressive Aggregation Network for Salient Object Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T04:26:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。