論文の概要: SPKLIP: Aligning Spike Video Streams with Natural Language
- arxiv url: http://arxiv.org/abs/2505.12656v1
- Date: Mon, 19 May 2025 03:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.377386
- Title: SPKLIP: Aligning Spike Video Streams with Natural Language
- Title(参考訳): SPKLIP: 自然言語によるスパイクビデオストリームの調整
- Authors: Yongchang Gao, Meiling Jin, Zhaofei Yu, Tiejun Huang, Guozhang Chen,
- Abstract要約: 本稿では,Spike-VLA用に開発された最初のアーキテクチャであるSPKLIPを紹介する。
SPKLIPは階層的なスパイク特徴抽出器を使用し、イベントストリーム内の多スケール時間ダイナミクスを適応的にモデル化する。
実験では、ベンチマークスパイクデータセット上での最先端のパフォーマンスと、新たに提供された実世界のデータセット上での強力な数ショットの一般化が示されている。
- 参考スコア(独自算出の注目度): 37.640682226789934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spike cameras offer unique sensing capabilities but their sparse, asynchronous output challenges semantic understanding, especially for Spike Video-Language Alignment (Spike-VLA) where models like CLIP underperform due to modality mismatch. We introduce SPKLIP, the first architecture specifically for Spike-VLA. SPKLIP employs a hierarchical spike feature extractor that adaptively models multi-scale temporal dynamics in event streams, and uses spike-text contrastive learning to directly align spike video with language, enabling effective few-shot learning. A full-spiking visual encoder variant, integrating SNN components into our pipeline, demonstrates enhanced energy efficiency. Experiments show state-of-the-art performance on benchmark spike datasets and strong few-shot generalization on a newly contributed real-world dataset. SPKLIP's energy efficiency highlights its potential for neuromorphic deployment, advancing event-based multimodal research. The source code and dataset are available at [link removed for anonymity].
- Abstract(参考訳): スパイクカメラはユニークなセンシング機能を提供するが、その疎結合で非同期な出力はセマンティック理解に挑戦する。特に、CLIPのようなモデルでは、モダリティミスマッチによってパフォーマンスが低下する。
本稿では,Spike-VLA用に開発された最初のアーキテクチャであるSPKLIPを紹介する。
SPKLIPは、イベントストリーム内のマルチスケールの時間的ダイナミクスを適応的にモデル化する階層的なスパイク特徴抽出器を使用し、スパイクテキストコントラスト学習を使用して、スパイクビデオと言語を直接アライメントし、効果的に数発の学習を可能にする。
SNNコンポーネントをパイプラインに統合したフルスピーキング型ビジュアルエンコーダが,エネルギー効率の向上を実証している。
実験では、ベンチマークスパイクデータセット上での最先端のパフォーマンスと、新たに提供された実世界のデータセット上での強力な数ショットの一般化が示されている。
SPKLIPのエネルギー効率は、ニューロモルフィック展開の可能性を強調し、イベントベースのマルチモーダル研究を進める。
ソースコードとデータセットは[匿名のためにリンクを削除]できます。
関連論文リスト
- DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。
最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T14:04:09Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Finding Visual Saliency in Continuous Spike Stream [23.591309376586835]
本稿では,連続スパイク流における視覚的塩分濃度を初めて検討する。
本稿では,フルスパイクニューラルネットワークに基づくRecurrent Spiking Transformerフレームワークを提案する。
我々のフレームワークは、スパイクストリームにおける視覚的サリエンシの強調とキャプチャにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-10T15:15:35Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network [39.54624592783459]
従来のニューラルネットワーク(ANN)の代替として、スパイキングニューラルネットワーク(SNN)が登場した。
本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:57:17Z) - Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。