Fugu-MT 論文翻訳(概要): AFANet: Adaptive Frequency-Aware Network for Weakly-Supervised Few-Shot Semantic Segmentation

論文の概要: AFANet: Adaptive Frequency-Aware Network for Weakly-Supervised Few-Shot Semantic Segmentation

arxiv url: http://arxiv.org/abs/2412.17601v1
Date: Mon, 23 Dec 2024 14:20:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.470748
Title: AFANet: Adaptive Frequency-Aware Network for Weakly-Supervised Few-Shot Semantic Segmentation
Title（参考訳）: AFANet:弱スーパービジョンFew-Shotセマンティックセマンティックセマンティックセグメンテーションのための適応周波数認識ネットワーク
Authors: Jiaqi Ma, Guo-Sen Xie, Fang Zhao, Zechao Li,
Abstract要約: 少ないショット学習は、いくつかのサンプルから学んだ事前知識を活用することで、新しい概念を認識することを目的としている。弱教師付き少数ショットセマンティックセマンティックセグメンテーションのための適応周波数認識ネットワーク(AFANet)を提案する。
参考スコア（独自算出の注目度）: 37.9826204492371
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot learning aims to recognize novel concepts by leveraging prior knowledge learned from a few samples. However, for visually intensive tasks such as few-shot semantic segmentation, pixel-level annotations are time-consuming and costly. Therefore, in this paper, we utilize the more challenging image-level annotations and propose an adaptive frequency-aware network (AFANet) for weakly-supervised few-shot semantic segmentation (WFSS). Specifically, we first propose a cross-granularity frequency-aware module (CFM) that decouples RGB images into high-frequency and low-frequency distributions and further optimizes semantic structural information by realigning them. Unlike most existing WFSS methods using the textual information from the multi-modal language-vision model, e.g., CLIP, in an offline learning manner, we further propose a CLIP-guided spatial-adapter module (CSM), which performs spatial domain adaptive transformation on textual information through online learning, thus providing enriched cross-modal semantic information for CFM. Extensive experiments on the Pascal-5\textsuperscript{i} and COCO-20\textsuperscript{i} datasets demonstrate that AFANet has achieved state-of-the-art performance. The code is available at https://github.com/jarch-ma/AFANet.
Abstract（参考訳）: 少ないショット学習は、いくつかのサンプルから学んだ事前知識を活用することで、新しい概念を認識することを目的としている。しかし、少数ショットセマンティックセグメンテーションのような視覚的に集中的なタスクでは、ピクセルレベルのアノテーションは時間がかかり、コストがかかる。そこで本稿では,より困難な画像レベルのアノテーションを活用し,弱教師付き少ショットセマンティックセマンティックセマンティックセグメンテーション(WFSS)のための適応周波数認識ネットワーク(AFANet)を提案する。具体的には、まず、RGB画像を高周波および低周波分布に分解し、さらにそれらを実現することで意味構造情報を最適化する、クロスグラニュラリティ周波数対応モジュール(CFM)を提案する。マルチモーダル言語ビジョンモデル(例えばCLIP)のテキスト情報を用いた既存のWFSS手法とは異なり、CLIP誘導空間適応モジュール(CSM)も提案する。 Pascal-5\textsuperscript{i}とCOCO-20\textsuperscript{i}データセットに関する大規模な実験は、AFANetが最先端のパフォーマンスを達成したことを示している。コードはhttps://github.com/jarch-ma/AFANetで公開されている。

関連論文リスト

TASeg: Text-aware RGB-T Semantic Segmentation based on Fine-tuning Vision Foundation Models [26.983562312613877]
本稿では,ローランド適応(LoRA)ファインチューニング技術を用いたテキスト認識RGB-Tセグメンテーションフレームワークを提案する。具体的には,画像エンコーダにおける動的特徴融合モジュール (DFFM) を提案する。
論文参考訳（メタデータ） (2025-06-27T07:34:28Z)
FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification [56.925103708982164]
周波数領域からの新たな視点を示し、ダウンストリーム分類の利点として、グローバル、独立、コンパクトの3つを識別する。本稿では,分類タスクにおける時系列のコントラスト学習に適した,軽量で効果的な周波数補充拡張(FreRA)を提案する。 FreRAは、時系列分類、異常検出、転送学習タスクにおいて、常に10つの主要なベースラインを上回ります。
論文参考訳（メタデータ） (2025-05-29T07:18:28Z)
DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation [2.7624021966289605]
Few-shot semantic segmentation (FSS) は、限定されたラベル付き例のみを使用して、モデルが新規/未使用のオブジェクトクラスをセグメンテーションできるようにすることを目的としている。本稿では,大規模言語モデル(LLM)を用いて,汎用クラス意味情報をクエリ画像に適用する新しいフレームワークを提案する。我々のフレームワークは、様々なシナリオにまたがって、新しいクラスへの高度な一般化と堅牢性を示す、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-06T01:42:28Z)
LMS-Net: A Learned Mumford-Shah Network For Few-Shot Medical Image Segmentation [16.384916751377794]
我々はLearned Mumford-Shah Network(LMS-Net)と呼ばれる新しい深層展開ネットワークを提案する。我々は,学習したMumford-Shahモデル(LMSモデル)を数学的基礎として活用し,洞察を統一されたフレームワークに統合する。 3つの医用セグメンテーションデータセットの総合的な実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2025-02-08T07:15:44Z)
DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。 DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-12-10T02:21:39Z)
Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文参考訳（メタデータ） (2024-11-03T04:02:35Z)
FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。実験の結果,既存の手法と比較して最先端の性能が示された。
論文参考訳（メタデータ） (2024-07-12T15:57:52Z)
Open-Vocabulary Semantic Segmentation with Image Embedding Balancing [33.69721994194684]
本稿では,EBSegと呼ばれるオープン語彙セマンティックセグメンテーションのための新しいフレームワークを提案する。 AdaB Decoderは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。 SSC Lossは画像特徴空間のクラス間の親和性とCLIPのテキスト特徴空間の親和性を調整する。
論文参考訳（メタデータ） (2024-06-14T08:34:20Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。 OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文参考訳（メタデータ） (2024-04-12T01:08:04Z)
FLIP: Cross-domain Face Anti-spoofing with Language Guidance [19.957293190322332]
Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、顔認識システムにおいて不可欠な要素である。最近の視覚変換器(ViT)モデルはFASタスクに有効であることが示されている。本稿では、自然言語の助けを借りて視覚表現を基盤とした、堅牢なドメイン間FASのための新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-09-28T17:53:20Z)
Multi-spectral Class Center Network for Face Manipulation Detection and Localization [52.569170436393165]
顔の操作検出と局所化のための新しいマルチスペクトル・クラス・センター・ネットワーク(MSCCNet)を提案する。周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。多スペクトルクラスレベルの表現を適用することで、偽画像の操作された領域に敏感な視覚概念の意味情報を抑えることができる。
論文参考訳（メタデータ） (2023-05-18T08:09:20Z)
Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement [69.47143451986067]
低照度画像強調法 (LLIE) は、照明の改善方法と正常照度画像の生成方法を検討する。既存の手法の大部分は、異なる領域のセマンティック情報を考慮せずに、グローバルかつ均一な方法で低照度画像を改善する。セマンティックセグメンテーションモデルにカプセル化される多種多様な事前学習において、低照度強化モデルを支援する新しいセマンティック・アウェア・ナレッジ誘導フレームワークを提案する。
論文参考訳（メタデータ） (2023-04-14T10:22:28Z)
AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。 AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文参考訳（メタデータ） (2022-02-18T10:14:45Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。