論文の概要: Spiking Patches: Asynchronous, Sparse, and Efficient Tokens for Event Cameras
- arxiv url: http://arxiv.org/abs/2510.26614v1
- Date: Thu, 30 Oct 2025 15:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.890072
- Title: Spiking Patches: Asynchronous, Sparse, and Efficient Tokens for Event Cameras
- Title(参考訳): スパイキングパッチ:イベントカメラのための非同期、スパース、効率的なトークン
- Authors: Christoffer Koo Øhrstrøm, Ronja Güldenring, Lazaros Nalpantidis,
- Abstract要約: Spiking Patchesは、イベントカメラ用に特別に設計されたトークンメーカーである。
ジェスチャー認識とオブジェクト検出において,GNN,PCN,Transformerを用いてトークン化を行う。
- 参考スコア(独自算出の注目度): 2.5081221761654757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose tokenization of events and present a tokenizer, Spiking Patches, specifically designed for event cameras. Given a stream of asynchronous and spatially sparse events, our goal is to discover an event representation that preserves these properties. Prior works have represented events as frames or as voxels. However, while these representations yield high accuracy, both frames and voxels are synchronous and decrease the spatial sparsity. Spiking Patches gives the means to preserve the unique properties of event cameras and we show in our experiments that this comes without sacrificing accuracy. We evaluate our tokenizer using a GNN, PCN, and a Transformer on gesture recognition and object detection. Tokens from Spiking Patches yield inference times that are up to 3.4x faster than voxel-based tokens and up to 10.4x faster than frames. We achieve this while matching their accuracy and even surpassing in some cases with absolute improvements up to 3.8 for gesture recognition and up to 1.4 for object detection. Thus, tokenization constitutes a novel direction in event-based vision and marks a step towards methods that preserve the properties of event cameras.
- Abstract(参考訳): 我々はイベントのトークン化を提案し、イベントカメラ用に特別に設計されたトークン化ツールSpike Patchesを提示する。
非同期で空間的に疎いイベントのストリームを考えると、これらのプロパティを保存するイベント表現を見つけることが目的です。
以前の作品では、イベントをフレームまたはボクセルとして表現していた。
しかし、これらの表現は精度が高いが、フレームとボクセルは同期であり、空間空間の空間空間幅を減少させる。
Spiking Patchesは、イベントカメラのユニークな特性を保存するための手段を提供しています。
ジェスチャー認識とオブジェクト検出において,GNN,PCN,Transformerを用いてトークン化を行う。
スパイキングパッチのトークンは、ボクセルベースのトークンよりも最大3.4倍、フレームより最大10.4倍速い推論時間を生成する。
精度を合わせながら実現し、ジェスチャー認識では3.8まで、オブジェクト検出では1.4まで絶対的に改善したケースもある。
このように、トークン化はイベントベースのビジョンにおける新しい方向性を構成し、イベントカメラの特性を保存する方法への一歩を踏み出した。
関連論文リスト
- AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。