論文の概要: SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network
- arxiv url: http://arxiv.org/abs/2310.06488v3
- Date: Tue, 10 Sep 2024 06:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 23:44:54.863868
- Title: SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network
- Title(参考訳): SpikeCLIP: コントラスト言語による事前訓練型スパイクニューラルネットワーク
- Authors: Tianlong Li, Wenhao Liu, Changze Lv, Yufei Gu, Jianhan Xu, Cenyuan Zhang, Muling Wu, Xiaoqing Zheng, Xuanjing Huang,
- Abstract要約: 従来のニューラルネットワーク(ANN)の代替として、スパイキングニューラルネットワーク(SNN)が登場した。
本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
- 参考スコア(独自算出の注目度): 39.54624592783459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking Neural Networks (SNNs) have emerged as a promising alternative to conventional Artificial Neural Networks (ANNs), demonstrating comparable performance in both visual and linguistic tasks while offering the advantage of improved energy efficiency. Despite these advancements, the integration of linguistic and visual features into a unified representation through spike trains poses a significant challenge, and the application of SNNs to multimodal scenarios remains largely unexplored. This paper presents SpikeCLIP, a novel framework designed to bridge the modality gap in spike-based computation. Our approach employs a two-step recipe: an ``alignment pre-training'' to align features across modalities, followed by a ``dual-loss fine-tuning'' to refine the model's performance. Extensive experiments reveal that SNNs achieve results on par with ANNs while substantially reducing energy consumption across various datasets commonly used for multimodal model evaluation. Furthermore, SpikeCLIP maintains robust image classification capabilities, even when dealing with classes that fall outside predefined categories. This study marks a significant advancement in the development of energy-efficient and biologically plausible multimodal learning systems.
- Abstract(参考訳): 従来のニューラルネットワーク(ANN)に代わる有望な代替手段としてスパイキングニューラルネットワーク(SNN)が登場し、視覚的タスクと言語的タスクの両方で同等のパフォーマンスを示しながら、エネルギー効率の向上を享受している。
これらの進歩にもかかわらず、言語的特徴と視覚的特徴をスパイク列車による統一表現に統合することは大きな課題となり、SNNのマルチモーダルシナリオへの応用は未解明のままである。
本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
我々のアプローチでは、2段階のレシピが採用されている:「アライメント事前学習」は、モダリティにまたがる特徴を調整し、続いてモデルの性能を洗練させる「ダールロス微調整」である。
大規模な実験により、SNNはANNと同等の結果を得るとともに、マルチモーダルモデル評価によく使用される様々なデータセットのエネルギー消費量を大幅に削減することがわかった。
さらに、SpikeCLIPは、事前に定義されたカテゴリの外にあるクラスを扱う場合でも、堅牢な画像分類機能を維持している。
本研究は,エネルギー効率・生物学的に妥当なマルチモーダル学習システムの開発において,重要な進展を示すものである。
関連論文リスト
- Accurate and Efficient Event-based Semantic Segmentation Using Adaptive
Spiking Encoder-Decoder Network [10.77500756739271]
本稿では,大規模なイベントベースセマンティックセマンティックセグメンテーションタスクのために設計された,効率的なスパイキングエンコーダデコーダネットワークを提案する。
動的イベントストリームからの学習を強化するために,スパイキングニューロンの固有適応しきい値を用いてネットワークの活性化を変調する。
提案したネットワークは、DDD17データセット上での平均的結合(MIoU)が72.57%、最近導入された大規模なDSEC-Semanticデータセット上で57.22%のMIoUを実現している。
論文 参考訳(メタデータ) (2023-04-24T07:12:50Z) - Multi-Level Firing with Spiking DS-ResNet: Enabling Better and Deeper
Directly-Trained Spiking Neural Networks [19.490903216456758]
スパイキングニューラルネットワーク(SNN)は、非同期離散性とスパース特性を持つニューラルネットワークである。
既存のスパイキング抑制残差ネットワーク(Spiking DS-ResNet)に基づくマルチレベル焼成(MLF)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T16:39:46Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Including STDP to eligibility propagation in multi-layer recurrent
spiking neural networks [0.0]
ニューロモルフィックシステムにおけるスパイクニューラルネットワーク(SNN)は、ディープラーニングベースの手法よりもエネルギー効率が高い。
このようなSNNを訓練するための明確な競合学習アルゴリズムは存在しない。
E-propは、低消費電力のニューロモルフィックハードウェアで競合する再帰性SNNを訓練する、効率的で生物学的に妥当な方法を提供する。
論文 参考訳(メタデータ) (2022-01-05T05:51:18Z) - Spatial-Temporal-Fusion BNN: Variational Bayesian Feature Layer [77.78479877473899]
我々は,BNNを大規模モデルに効率的にスケールするための時空間BNNを設計する。
バニラBNNと比較して,本手法はトレーニング時間とパラメータ数を著しく削減し,BNNのスケールアップに有効である。
論文 参考訳(メタデータ) (2021-12-12T17:13:14Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - BiSNN: Training Spiking Neural Networks with Binary Weights via Bayesian
Learning [37.376989855065545]
Spiking Neural Networks(SNN)は、エネルギー効率を高める生物学的にインスパイアされたダイナミックなイベント駆動モデルです。
時間的にスパースなバイナリアクティベーションとバイナリ重みの利点を組み合わせたSNNモデルが導入された。
実験は、フル精度実装に関するパフォーマンス損失を検証します。
論文 参考訳(メタデータ) (2020-12-15T14:06:36Z) - Encoding the latent posterior of Bayesian Neural Networks for
uncertainty quantification [10.727102755903616]
我々は,複雑なコンピュータビジョンアーキテクチャに適した効率的な深部BNNを目指している。
可変オートエンコーダ(VAE)を利用して、各ネットワーク層におけるパラメータの相互作用と潜在分布を学習する。
我々のアプローチであるLatent-Posterior BNN(LP-BNN)は、最近のBatchEnsemble法と互換性があり、高い効率(トレーニングとテストの両方における計算とメモリ)のアンサンブルをもたらす。
論文 参考訳(メタデータ) (2020-12-04T19:50:09Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。