論文の概要: Spike-NVPT: Learning Robust Visual Prompts via Bio-Inspired Temporal Filtering and Discretization
- arxiv url: http://arxiv.org/abs/2604.18284v1
- Date: Mon, 20 Apr 2026 13:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.91709
- Title: Spike-NVPT: Learning Robust Visual Prompts via Bio-Inspired Temporal Filtering and Discretization
- Title(参考訳): Spike-NVPT:バイオインスパイアされた時間フィルタリングと離散化によるロバストな視覚プロンプトの学習
- Authors: Qiugang Zhan, Anning Jiang, Ran Tao, Ao Ma, Xiangyu Zhang, Xiurui Xie, Guisong Liu,
- Abstract要約: ノイズロストな視覚的プロンプトチューニング手法であるSpike-NVPTを提案する。
Spike-NVPTは従来の手法よりも最大で11.2%向上した。
- 参考スコア(独自算出の注目度): 24.554578138499352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision models have found widespread application across diverse domains. Prompt tuning-based methods have emerged as a parameter-efficient paradigm for adapting pre-trained vision models. While effective on standard benchmarks, the continuous and dense nature of learned prompts can lead to sensitivity against input noise, as the high-capacity prompts tend to overfit task-irrelevant details. To address this trade-off, we propose Spike-NVPT, a noise-robust visual prompt tuning method. Specifically, we design a Signal Filtering Layer based on spiking neurons, which uses the integrate-and-fire (IF) mechanism to accumulate task-relevant signals over time and filter transient noise fluctuations. A subsequent Spike Discretization Unit converts filtered signals into sparse binary prompts. This discretization acts as a strong regularizer, forcing the model to anchor decision boundaries on the most discriminative and robust features. Notably, the resulting binary prompts remain static during deployment, ensuring zero additional computational overhead during inference. Experimental results demonstrate that Spike-NVPT achieves superior robustness performance, with a maximum improvement of 11.2% over conventional methods, and retains competitive accuracy on clean datasets. To the best of our knowledge, this is the first attempt to leverage spiking neurons for fine-tuning traditional artificial neural network (ANN)-based visual models.
- Abstract(参考訳): 事前訓練された視覚モデルは様々な領域にまたがって広く応用されている。
プロンプトチューニングに基づく手法は、事前学習された視覚モデルに適応するためのパラメータ効率のパラダイムとして登場した。
標準的なベンチマークでは有効であるが、学習したプロンプトの連続的かつ密度の高い性質は、高容量のプロンプトがタスク非関連の詳細を過度に適合させる傾向があるため、入力ノイズに対する感度をもたらす可能性がある。
このトレードオフに対処するために、ノイズロストな視覚的プロンプトチューニング手法であるSpike-NVPTを提案する。
具体的には、インテグレート・アンド・ファイア(IF)機構を用いて、時間とともにタスク関連信号を蓄積し、過渡雑音変動をフィルタする信号フィルタリング層を設計する。
その後のSpike Discretization Unitは、フィルタされた信号をスパースバイナリプロンプトに変換する。
この離散化は強力な正則化器として機能し、モデルは最も差別的で堅牢な特徴に対して決定境界を固定せざるを得ない。
特に、結果として生じるバイナリプロンプトは、デプロイメント中に静的のままであり、推論時に計算オーバーヘッドがゼロになる。
実験の結果、Spike-NVPTは従来の手法よりも最大で11.2%向上し、クリーンデータセット上での競合精度を保っている。
私たちの知る限りでは、従来のニューラルネットワーク(ANN)ベースのビジュアルモデルにスパイキングニューロンを活用する試みとしては、これが初めてです。
関連論文リスト
- Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - TIP: Resisting Gradient Inversion via Targeted Interpretable Perturbation in Federated Learning [8.156452885913108]
フェデレートラーニング(FL)は、データの局所性を維持しながら協調的なモデルトレーニングを促進する。
勾配の交換により、システムはグラディエント・インバージョン・アタック(GIAs)に弱い。
本稿では、モデル解釈可能性と周波数領域解析を統合する新しい防御フレームワークTIPを提案する。
論文 参考訳(メタデータ) (2026-02-12T06:32:49Z) - From Diet to Free Lunch: Estimating Auxiliary Signal Properties using Dynamic Pruning Masks in Speech Enhancement Networks [4.219150964619931]
音声デバイスにおける音声強調(SE)は、しばしばVoice Activity Detection (VAD)、SNR推定、音響シーン分類のための補助モジュールによって支援される。
その結果,VADでは93%,ノイズ分類では84%,F0では0.86であった。
コントリビューションは2つあり、一方、下流予測タスクのレンズを通してDynCPモデルの創発的挙動を調べ、それらが何を学習しているかを明らかにし、他方、効率的なSEと同時推定のための総合解としてDynCPを再利用し、再提案する。
論文 参考訳(メタデータ) (2026-02-11T09:09:20Z) - Domain-Incremental Continual Learning for Robust and Efficient Keyword Spotting in Resource Constrained Systems [0.0]
キーワード エッジデバイスにデプロイされる小さなフットプリントモデルを備えたスポッティングシステムは、かなりの精度と堅牢性に直面する。
計算効率を維持しつつ,新しい領域に適応する継続的学習のための包括的フレームワークを提案する。
提案したパイプラインは、Mel Frequency Cepstral Coefficients(MFCC)とMel-spectrogram機能の両方を利用して、デュアルインプットの畳み込みニューラルネットワークを統合する。
論文 参考訳(メタデータ) (2026-01-22T17:59:31Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - FreSh: Frequency Shifting for Accelerated Neural Representation Learning [11.175745750843484]
Inlicit Neural Representations (INR) は、画像、ビデオ、三次元形状などの信号を多層パーセプトロン(MLP)を用いて連続的に表現するための強力なアプローチとして近年注目されている。
低周波の詳細は低周波バイアスを示し、高周波の詳細を正確に捉える能力を制限することが知られている。
本稿では、初期出力の周波数スペクトルと目標信号の周波数スペクトルを一致させる周波数シフト(FreSh)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:05:57Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - Filter-enhanced MLP is All You Need for Sequential Recommendation [89.0974365344997]
オンラインプラットフォームでは、ログされたユーザの行動データはノイズを含まないことは避けられない。
周波数領域の雑音を減衰させる信号処理から,フィルタアルゴリズムのアイデアを借用する。
逐次レコメンデーションタスクのための学習可能なフィルタを備えたオールMLPモデルである textbfFMLP-Rec を提案する。
論文 参考訳(メタデータ) (2022-02-28T05:49:35Z) - Adaptive Low-Pass Filtering using Sliding Window Gaussian Processes [71.23286211775084]
ガウス過程回帰に基づく適応型低域通過フィルタを提案する。
本研究では,提案手法の誤差が一様境界であることを示す。
論文 参考訳(メタデータ) (2021-11-05T17:06:59Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。