論文の概要: VDLF-Net: Variational Feature Fusion for Adaptive and Few-Shot Visual Learning
- arxiv url: http://arxiv.org/abs/2604.23641v1
- Date: Sun, 26 Apr 2026 10:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.47677
- Title: VDLF-Net: Variational Feature Fusion for Adaptive and Few-Shot Visual Learning
- Title(参考訳): VDLF-Net:適応的・少数ショット視覚学習のための変分特徴融合
- Authors: Jiawei Yan,
- Abstract要約: VDLF-Netは、コンパクトなVAEをマルチスケールのCNNバックボーンにアタッチする。
VDLF-Netは、ResNet-50 Enhanced、VGG-16、Prototypeal Networks、Matching Networksよりも優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 1.6244541005112747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces VDLF-Net, which attaches a compact VAE to a multi-scale CNN backbone. Latent vectors and softmax-gate support the backbone feature maps, while $\ell_2$-normalized embeddings from the gated maps contribute toward supervised classification or episodic few-shot prediction. Under standard CIFAR-100 and Mini-ImageNet protocols, VDLF-Net demonstrates an improved performance over ResNet-50 Enhanced, VGG-16, Prototypical Networks, and Matching Networks. Extensive ablations show that removing the fine-resolution scale has the greatest impact on VDLF-Net's performance. At the same time, KL and reconstruction at the chosen $α$ pose a minor performance reduction, demonstrating that performance gains over classical episodic baselines mainly originate from the full VDLF-Net architecture and training strategy.
- Abstract(参考訳): 本稿では,マルチスケールCNNバックボーンにコンパクトなVAEを付加するVDLF-Netを提案する。
潜在ベクトルとソフトマックスゲートは背骨の特徴写像をサポートし、$\ell_2$-normalized embeddeds from the gate mapは教師付き分類やエピソディックな数ショット予測に寄与する。
標準のCIFAR-100およびMini-ImageNetプロトコルでは、VDLF-NetはResNet-50 Enhanced、VGG-16、Prototypeal Networks、Matching Networksよりも優れた性能を示している。
VDLF-Netの性能に最も大きな影響を与えているのは、高解像度スケールの除去である。
同時に、選ばれた$α$でのKLと再構築は、古典的なエピソードベースラインよりもパフォーマンスが向上することが、主に完全なVDLF-Netアーキテクチャとトレーニング戦略に由来することを証明している。
関連論文リスト
- ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters [67.87703790962388]
視覚変換器(ViT)の効率的なスケーリング手法であるScaleNetを導入する。
従来のスクラッチからのトレーニングとは異なり、ScaleNetはパラメータの無視可能な増加を伴う迅速なモデル拡張を容易にする。
ScaleNetはトレーニングの3分の1しか必要とせず、スクラッチからトレーニングよりも精度が7.42%向上していることを示す。
論文 参考訳(メタデータ) (2025-10-21T09:07:25Z) - Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action Cues [5.497663232622965]
本稿では,ViNetアーキテクチャをベースとした36MBモデルであるViNet-Sを紹介し,性能を損なうことなくモデルサイズやパラメータを大幅に削減する軽量デコーダを特徴とする。
本研究では,ViNet-SとViNet-Aのアンサンブルを平均化することにより,視覚のみと6つのオーディオ視覚的サリエンシデータセットに対して,1000fps以上を達成できることを示す。
論文 参考訳(メタデータ) (2025-02-01T11:05:28Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - Pruning Compact ConvNets for Efficient Inference [29.946386610434807]
NAS(Neural Architecture Search)によってトレーニングされたネットワークを最適化するために,モデルプルーニングアプローチが利用できることを示す。
得られたプルーンドモデルのファミリーは、同じ計算レベルで既存のFBNetV3モデルよりも一貫して優れた性能を得ることができる。
一般化性能の向上に加えて、限られた計算資源が利用できる場合、FBNetV3モデルはフルスケールのNASの実行に関わるGPU時間のごく一部しか発生しないことを示した。
論文 参考訳(メタデータ) (2023-01-11T14:51:19Z) - DA$^{\textbf{2}}$-Net : Diverse & Adaptive Attention Convolutional
Neural Network [0.6999740786886536]
DA$2$-Netは、フィードフォワードCNNが多様な機能を明示的にキャプチャし、ネットワークのパフォーマンスを効果的に向上させるために最も有益な機能を適応的に選択し、強調することを可能にする。
CIFAR100,SVHN,ImageNetなど,ベンチマークデータセット上でDA$2$-Netを広範囲に評価した。
論文 参考訳(メタデータ) (2021-11-25T16:25:16Z) - Learnable Expansion-and-Compression Network for Few-shot
Class-Incremental Learning [87.94561000910707]
破滅的忘れとモデルオーバーフィッティングの問題を解決するための学習可能な拡張・圧縮ネットワーク(LEC-Net)を提案する。
LEC-Netは機能の表現能力を拡大し、モデル正規化の観点から古いネットワークの特徴漂流を緩和します。
CUB/CIFAR-100データセットの実験では、LEC-Netがベースラインを57%改善し、最先端の56%を上回ります。
論文 参考訳(メタデータ) (2021-04-06T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。