論文の概要: OmniEvent: Unified Event Representation Learning
- arxiv url: http://arxiv.org/abs/2508.01842v1
- Date: Sun, 03 Aug 2025 16:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.082698
- Title: OmniEvent: Unified Event Representation Learning
- Title(参考訳): OmniEvent: 統一イベント表現学習
- Authors: Weiqi Yan, Chenlu Lin, Youbiao Wang, Zhipeng Cai, Xiuhong Lin, Yangyang Shi, Weiquan Liu, Yu Zang,
- Abstract要約: イベントネットワークは、非構造化データ分布と空間時空間(S-T)の不均一性のため、タスク固有の設計に大きく依存している。
我々は,OmniEventを提案する。OmniEventは,多様なタスクにまたがってSOTAのパフォーマンスを実現する,最初の統合されたイベント表現学習フレームワークである。
- 参考スコア(独自算出の注目度): 20.211879134897618
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Event cameras have gained increasing popularity in computer vision due to their ultra-high dynamic range and temporal resolution. However, event networks heavily rely on task-specific designs due to the unstructured data distribution and spatial-temporal (S-T) inhomogeneity, making it hard to reuse existing architectures for new tasks. We propose OmniEvent, the first unified event representation learning framework that achieves SOTA performance across diverse tasks, fully removing the need of task-specific designs. Unlike previous methods that treat event data as 3D point clouds with manually tuned S-T scaling weights, OmniEvent proposes a decouple-enhance-fuse paradigm, where the local feature aggregation and enhancement is done independently on the spatial and temporal domains to avoid inhomogeneity issues. Space-filling curves are applied to enable large receptive fields while improving memory and compute efficiency. The features from individual domains are then fused by attention to learn S-T interactions. The output of OmniEvent is a grid-shaped tensor, which enables standard vision models to process event data without architecture change. With a unified framework and similar hyper-parameters, OmniEvent out-performs (tasks-specific) SOTA by up to 68.2% across 3 representative tasks and 10 datasets (Fig.1). Code will be ready in https://github.com/Wickyan/OmniEvent .
- Abstract(参考訳): イベントカメラは、超高ダイナミックレンジと時間分解能のためにコンピュータビジョンで人気が高まっている。
しかし、イベントネットワークは、構造化されていないデータ分布と時空間(S-T)の不均一性のため、タスク固有の設計に大きく依存しているため、既存のアーキテクチャを新しいタスクに再利用することは困難である。
OmniEventは,タスク固有の設計の必要性を完全に排除し,多様なタスク間でSOTAパフォーマンスを実現する,最初の統合イベント表現学習フレームワークである。
イベントデータを手動で調整したS-Tスケーリング重み付き3Dポイントクラウドとして扱う従来の方法とは異なり、OmniEventでは、局所的な特徴集約と拡張を空間的および時間的領域で独立に行うことで、不均一性の問題を回避する、デコプルエンハンスフューズパラダイムを提案している。
空間充填曲線を適用して、大きな受容場を実現し、メモリと計算効率を向上する。
個々のドメインの特徴は、S-T相互作用を学ぶために注意によって融合される。
OmniEventの出力はグリッド型のテンソルで、標準的なビジョンモデルでアーキテクチャの変更なしにイベントデータを処理できる。
統一されたフレームワークと同様のハイパーパラメータにより、OmniEventは3つの代表的なタスクと10のデータセットで最大68.2%の(タスク固有の)SOTAパフォーマンスを向上する(図1)。
コードはhttps://github.com/Wickyan/OmniEventで準備できる。
関連論文リスト
- Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration [9.547947845734992]
イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。
本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。
私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。
現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文 参考訳(メタデータ) (2024-04-29T08:50:27Z) - Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。
イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文 参考訳(メタデータ) (2024-03-05T01:46:50Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - OmniEvent: A Comprehensive, Fair, and Easy-to-Use Toolkit for Event
Understanding [53.23073872040206]
イベント理解は、テキスト内のイベントの内容と関係を理解することを目的としている。
関連研究や応用を容易にするために,イベント理解ツールキットOmniEventを提案する。
論文 参考訳(メタデータ) (2023-09-25T16:15:09Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Continuous-time convolutions model of event sequences [46.3471121117337]
イベントシーケンスは不均一でスパースであり、従来のモデルは不適当である。
我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。
COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Masked Event Modeling: Self-Supervised Pretraining for Event Cameras [41.263606382601886]
Masked Event Modeling (MEM) はイベントの自己組織化フレームワークである。
MEMは、記録されていないイベントのニューラルネットワークを事前トレーニングする。
本手法は3つのデータセットにまたがって最先端の分類精度に達する。
論文 参考訳(メタデータ) (2022-12-20T15:49:56Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。