論文の概要: SVL: Spike-based Vision-language Pretraining for Efficient 3D Open-world Understanding
- arxiv url: http://arxiv.org/abs/2505.17674v1
- Date: Fri, 23 May 2025 09:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.971037
- Title: SVL: Spike-based Vision-language Pretraining for Efficient 3D Open-world Understanding
- Title(参考訳): SVL: 効率的な3次元オープンワールド理解のためのスパイクに基づくビジョン言語事前学習
- Authors: Xuerui Qiu, Peixi Wu, Yaozhi Wen, Shaowei Gu, Yuqi Pan, Xinhao Luo, Bo XU, Guoqi Li,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は3次元時間的理解を抽出するエネルギー効率の良い方法を提供する。
既存のSNNは、Artificial Neural Networks(ANN)と比較して、大きなパフォーマンスギャップを示している。
本稿では,オープンワールド3D理解によるSNNの学習を支援する,Spikeベースのビジョンランゲージ(SVL)事前学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.75012908465477
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spiking Neural Networks (SNNs) provide an energy-efficient way to extract 3D spatio-temporal features. However, existing SNNs still exhibit a significant performance gap compared to Artificial Neural Networks (ANNs) due to inadequate pre-training strategies. These limitations manifest as restricted generalization ability, task specificity, and a lack of multimodal understanding, particularly in challenging tasks such as multimodal question answering and zero-shot 3D classification. To overcome these challenges, we propose a Spike-based Vision-Language (SVL) pretraining framework that empowers SNNs with open-world 3D understanding while maintaining spike-driven efficiency. SVL introduces two key components: (i) Multi-scale Triple Alignment (MTA) for label-free triplet-based contrastive learning across 3D, image, and text modalities, and (ii) Re-parameterizable Vision-Language Integration (Rep-VLI) to enable lightweight inference without relying on large text encoders. Extensive experiments show that SVL achieves a top-1 accuracy of 85.4% in zero-shot 3D classification, surpassing advanced ANN models, and consistently outperforms prior SNNs on downstream tasks, including 3D classification (+6.1%), DVS action recognition (+2.1%), 3D detection (+1.1%), and 3D segmentation (+2.1%) with remarkable efficiency. Moreover, SVL enables SNNs to perform open-world 3D question answering, sometimes outperforming ANNs. To the best of our knowledge, SVL represents the first scalable, generalizable, and hardware-friendly paradigm for 3D open-world understanding, effectively bridging the gap between SNNs and ANNs in complex open-world understanding tasks. Code is available https://github.com/bollossom/SVL.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)は3次元時空間の特徴を抽出するエネルギー効率の良い方法を提供する。
しかしながら、既存のSNNは、未学習の事前学習戦略のため、Artificial Neural Networks(ANN)と比較して大きなパフォーマンスギャップがある。
これらの制限は、特にマルチモーダル質問応答やゼロショット3D分類といった課題において、限定的な一般化能力、タスク特異性、マルチモーダル理解の欠如として現れている。
これらの課題を克服するために、スパイクベースのビジョンランゲージ(SVL)事前トレーニングフレームワークを提案し、スパイク駆動効率を維持しながら、オープンワールドの3D理解でSNNに力を与える。
SVLは2つの重要なコンポーネントを導入している。
一 ラベルなし三重項に基づく3次元・画像・テキストモダリティ間のコントラスト学習のためのマルチスケール三重項アライメント(MTA)
(II)大規模なテキストエンコーダに頼ることなく、軽量な推論を可能にするために、再パラメータ化可能なビジョンランゲージ統合(Rep-VLI)。
大規模な実験により、SVLはゼロショットの3D分類において85.4%の精度を達成し、3D分類(+6.1%)、DVSアクション認識(+2.1%)、3D検出(+1.1%)、3Dセグメンテーション(+2.1%)などの下流タスクにおいて、先進的なANNモデルを上回っ、一貫してSNNよりも優れていた。
さらに、SVLにより、SNNはオープンワールドの3D質問応答を実行でき、時にはANNよりも優れる。
我々の知る限りでは、SVLは3Dオープンワールド理解のための最初のスケーラブルで汎用的でハードウェアフレンドリーなパラダイムであり、複雑なオープンワールド理解タスクにおけるSNNとANNのギャップを効果的に埋めています。
コードはhttps://github.com/bollossom/SVL.comで入手できる。
関連論文リスト
- Activation-wise Propagation: A Universal Strategy to Break Timestep Constraints in Spiking Neural Networks for 3D Data Processing [29.279985043923386]
スパイキングニューロンに対する新しい状態更新機構であるAMP2(Activation-wise membrane potential Propagation)を導入する。
深いネットワークで接続をスキップすることで刺激を受け、AMP2はニューロンの膜電位をネットワークに組み込み、反復的な更新を不要にする。
提案手法は,3次元点雲やイベントストリームなど,様々な3次元モードの大幅な改善を実現する。
論文 参考訳(メタデータ) (2025-02-18T11:52:25Z) - Efficient 3D Recognition with Event-driven Spike Sparse Convolution [15.20476631850388]
スパイキングニューラルネットワーク(SNN)は3次元時間的特徴を抽出するエネルギー効率の良い方法を提供する。
本稿では3次元点雲をスパーススパイクトレイン空間に符号化するスパイクVoxel Coding(SVC)方式を提案する。
本稿では,3次元スパース・クラウドの特徴を効率的に抽出するスパイクスパース・コンボリューション(SSC)モデルを提案する。
論文 参考訳(メタデータ) (2024-12-10T09:55:15Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。