論文の概要: Time-step Mixup for Efficient Spiking Knowledge Transfer from Appearance to Event Domain
- arxiv url: http://arxiv.org/abs/2509.12959v1
- Date: Tue, 16 Sep 2025 11:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.050681
- Title: Time-step Mixup for Efficient Spiking Knowledge Transfer from Appearance to Event Domain
- Title(参考訳): 外観からイベント領域への効率的なスパイキング知識伝達のための時間-ステップ混合
- Authors: Yuqi Xie, Shuhan Ye, Chong Wang, Jiazhen Xu, Le Shen, Yuanbin Qian, Jiangbo Qian,
- Abstract要約: 時間ステップ混合知識伝達は、RGBおよびDVS入力を様々な時間ステップで補間することにより、SNNの非同期性を利用する。
提案手法は,よりスムーズな知識伝達を可能にし,トレーニング中のモダリティシフトを緩和し,画像分類タスクにおいて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 9.691720154439375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of event cameras and spiking neural networks holds great promise for energy-efficient visual processing. However, the limited availability of event data and the sparse nature of DVS outputs pose challenges for effective training. Although some prior work has attempted to transfer semantic knowledge from RGB datasets to DVS, they often overlook the significant distribution gap between the two modalities. In this paper, we propose Time-step Mixup knowledge transfer (TMKT), a novel fine-grained mixing strategy that exploits the asynchronous nature of SNNs by interpolating RGB and DVS inputs at various time-steps. To enable label mixing in cross-modal scenarios, we further introduce modality-aware auxiliary learning objectives. These objectives support the time-step mixup process and enhance the model's ability to discriminate effectively across different modalities. Our approach enables smoother knowledge transfer, alleviates modality shift during training, and achieves superior performance in spiking image classification tasks. Extensive experiments demonstrate the effectiveness of our method across multiple datasets. The code will be released after the double-blind review process.
- Abstract(参考訳): イベントカメラとスパイクニューラルネットワークの統合は、エネルギー効率の良いビジュアル処理を大いに約束する。
しかし、イベントデータの可用性が制限され、DVS出力のスパースな性質が効果的なトレーニングの課題となっている。
以前の研究では、RGBデータセットからDVSへの意味的知識の転送を試みたが、2つのモダリティ間の大きな分散ギャップをしばしば見落としていた。
本稿では,RGB と DVS の入力を様々なタイミングで補間することにより,SNN の非同期性を生かした新たな粒度混合戦略である Time-step Mixup Knowledge Transfer (TMKT) を提案する。
クロスモーダルなシナリオにおけるラベルの混合を可能にするために,モーダリティを考慮した補助学習の目的も導入する。
これらの目的は、タイムステップの混合プロセスをサポートし、異なるモダリティ間で効果的に識別するモデルの能力を強化する。
提案手法は,よりスムーズな知識伝達を可能にし,トレーニング中のモダリティシフトを緩和し,画像分類タスクにおいて優れた性能を実現する。
大規模な実験により,複数のデータセットにまたがる手法の有効性が実証された。
コードは、二重盲検レビュープロセス後にリリースされる。
関連論文リスト
- Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection [56.88160531995454]
既存のRGBイベント検出手法は、特徴抽出と融合の間、両方のモダリティの低情報領域を均一に処理する。
マルチモーダル特徴の適応的コラボレーティブスカラー化を行うFocusMambaを提案する。
DSEC-Det と PKU-DAVIS-SOD データセットを用いた実験により,提案手法は精度と効率の両方において優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2025-09-04T04:18:46Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - A Dimensional Structure based Knowledge Distillation Method for
Cross-Modal Learning [15.544134849816528]
簡単な作業から抽出した特徴を解析・観察することで特徴識別性と次元構造(DS)の相関を見いだす。
クロスモーダル・ナレッジ・蒸留法 (CMKD) を提案し, 教師付きクロスモーダル・ラーニング (CML) の性能向上を図る。
提案手法は, チャネル的に独立して, 中間的な特徴を均一に分散させることで, その精度を高めるために, 難易度から意味的に無関係な特徴を学習する。
論文 参考訳(メタデータ) (2023-06-28T07:29:26Z) - Surface EMG-Based Inter-Session/Inter-Subject Gesture Recognition by
Leveraging Lightweight All-ConvNet and Transfer Learning [17.535392299244066]
低解像度の瞬時HD-sEMG画像を用いたジェスチャー認識は、より流動的で自然な筋肉-コンピュータインターフェースを開発するための新たな道を開く。
セッション間とオブジェクト間シナリオ間のデータのばらつきは、大きな課題を示します。
既存のアプローチでは、非常に大きく複雑なConvNetまたは2SRNNベースのドメイン適応手法を使用して、これらのセッション間およびオブジェクト間データのばらつきに起因する分散シフトを近似した。
我々は、軽量なAll-ConvNetとTransfer Learning(TL)を利用した、セッション間およびオブジェクト間ジェスチャー認識の強化のための軽量All-ConvNet+TLモデルを提案する。
論文 参考訳(メタデータ) (2023-05-13T21:47:55Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。