論文の概要: Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2510.00681v1
- Date: Wed, 01 Oct 2025 09:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.48259
- Title: Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation
- Title(参考訳): 視覚言語知識蒸留によるオープン語彙イベントベースオブジェクト検出のための適応イベントストリームスライシング
- Authors: Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu,
- Abstract要約: イベントカメラは、高速応答、低レイテンシ、動きのぼかしに対する堅牢性によるオブジェクト検出タスクの利点を提供する。
現在のイベントベースの検出方法は、通常、事前に定義されたカテゴリに基づいて訓練され、新しいオブジェクトに一般化する能力を制限する。
本稿では、CLIPのセマンティック理解を活用して、イベントデータ上でオープンな語彙オブジェクト検出を実現するイベントイメージ知識蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.54397693466999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras offer advantages in object detection tasks due to high-speed response, low latency, and robustness to motion blur. However, event cameras lack texture and color information, making open-vocabulary detection particularly challenging. Current event-based detection methods are typically trained on predefined categories, limiting their ability to generalize to novel objects, where encountering previously unseen objects is common. Vision-language models (VLMs) have enabled open-vocabulary object detection in RGB images. However, the modality gap between images and event streams makes it ineffective to directly transfer CLIP to event data, as CLIP was not designed for event streams. To bridge this gap, we propose an event-image knowledge distillation framework that leverages CLIP's semantic understanding to achieve open-vocabulary object detection on event data. Instead of training CLIP directly on event streams, we use image frames as inputs to a teacher model, guiding the event-based student model to learn CLIP's rich visual representations. Through spatial attention-based distillation, the student network learns meaningful visual features directly from raw event inputs while inheriting CLIP's broad visual knowledge. Furthermore, to prevent information loss due to event data segmentation, we design a hybrid spiking neural network (SNN) and convolutional neural network (CNN) framework. Unlike fixed-group event segmentation methods, which often discard crucial temporal information, our SNN adaptively determines the optimal event segmentation moments, ensuring that key temporal features are extracted. The extracted event features are then processed by CNNs for object detection.
- Abstract(参考訳): イベントカメラは、高速応答、低レイテンシ、動きのぼかしに対する堅牢性によるオブジェクト検出タスクの利点を提供する。
しかし、イベントカメラにはテクスチャや色情報がないため、オープン語彙の検出は特に困難である。
現在のイベントベースの検出方法は、通常、事前に定義されたカテゴリでトレーニングされ、未確認のオブジェクトに遭遇する新しいオブジェクトに一般化する能力を制限する。
視覚言語モデル(VLM)は、RGB画像におけるオープン語彙オブジェクト検出を可能にする。
しかし、画像とイベントストリーム間のモダリティのギャップは、CLIPがイベントストリーム用に設計されていないため、CLIPを直接イベントデータに転送するのは効果的ではない。
このギャップを埋めるために、CLIPのセマンティック理解を活用し、イベントデータ上でオープンな語彙オブジェクト検出を実現するイベントイメージ知識蒸留フレームワークを提案する。
CLIPを直接イベントストリームでトレーニングするのではなく、イメージフレームを教師モデルへの入力として使用し、イベントベースの学生モデルを使用して、CLIPのリッチなビジュアル表現を学習します。
学生ネットワークは、空間的注意に基づく蒸留を通じて、CLIPの広い視覚知識を継承しながら、生のイベント入力から直接有意義な視覚的特徴を学習する。
さらに、イベントデータセグメンテーションによる情報損失を防止するために、ハイブリッドスパイキングニューラルネットワーク(SNN)と畳み込みニューラルネットワーク(CNN)のフレームワークを設計する。
重要な時間的情報を捨てる固定グループイベントセグメンテーション法とは異なり、SNNは最適イベントセグメンテーションモーメントを適応的に決定し、重要な時間的特徴を抽出する。
抽出されたイベント機能は、オブジェクト検出のためにCNNによって処理される。
関連論文リスト
- SuperEIO: Self-Supervised Event Feature Learning for Event Inertial Odometry [6.552812892993662]
イベントカメラは非同期に低レイテンシのイベントストリームを出力し、高速動作における状態推定と挑戦的な照明条件を約束する。
我々は,学習に基づく事象のみの検出とIMU測定を利用して,事象慣性オドメトリーを実現する新しいフレームワークであるSuperEIOを提案する。
提案手法を複数の公開データセット上で広範囲に評価し,その精度とロバスト性を他の最先端のイベントベース手法と比較した。
論文 参考訳(メタデータ) (2025-03-29T03:58:15Z) - Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - Representation Learning on Event Stream via an Elastic Net-incorporated
Tensor Network [1.9515859963221267]
本稿では,イベントストリーム中のすべてのイベントのグローバルな相関を同時に取得できる新しい表現法を提案する。
本手法は, 最先端手法と比較して, フィルタノイズなどの応用において有効な結果が得られる。
論文 参考訳(メタデータ) (2024-01-16T02:51:47Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - EventCLIP: Adapting CLIP for Event-based Object Recognition [26.35633454924899]
EventCLIPは、ゼロショットと少数ショットのイベントベースのオブジェクト認識にCLIPを使用する新しいアプローチである。
まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。
N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-10T06:05:35Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Avoiding Post-Processing with Event-Based Detection in Biomedical
Signals [69.34035527763916]
学習対象としてイベントを直接扱うイベントベースのモデリングフレームワークを提案する。
イベントベースのモデリング(後処理なし)は、広範囲な後処理を伴うエポックベースのモデリングと同等以上のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-09-22T13:44:13Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。