論文の概要: Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition
- arxiv url: http://arxiv.org/abs/2406.18845v1
- Date: Thu, 27 Jun 2024 02:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:27:31.069945
- Title: Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition
- Title(参考訳): 保持・ブレンド・交換:イベントストリーム認識のための品質を考慮した空間ステレオ融合手法
- Authors: Lan Chen, Dong Li, Xiao Wang, Pengpeng Shao, Wei Zhang, Yaowei Wang, Yonghong Tian, Jin Tang,
- Abstract要約: 本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
- 参考スコア(独自算出の注目度): 57.74076383449153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing event stream-based pattern recognition models usually represent the event stream as the point cloud, voxel, image, etc., and design various deep neural networks to learn their features. Although considerable results can be achieved in simple cases, however, the model performance may be limited by monotonous modality expressions, sub-optimal fusion, and readout mechanisms. In this paper, we propose a novel dual-stream framework for event stream-based pattern recognition via differentiated fusion, termed EFV++. It models two common event representations simultaneously, i.e., event images and event voxels. The spatial and three-dimensional stereo information can be learned separately by utilizing Transformer and Graph Neural Network (GNN). We believe the features of each representation still contain both efficient and redundant features and a sub-optimal solution may be obtained if we directly fuse them without differentiation. Thus, we divide each feature into three levels and retain high-quality features, blend medium-quality features, and exchange low-quality features. The enhanced dual features will be fed into the fusion Transformer together with bottleneck features. In addition, we introduce a novel hybrid interaction readout mechanism to enhance the diversity of features as final representations. Extensive experiments demonstrate that our proposed framework achieves state-of-the-art performance on multiple widely used event stream-based classification datasets. Specifically, we achieve new state-of-the-art performance on the Bullying10k dataset, i.e., $90.51\%$, which exceeds the second place by $+2.21\%$. The source code of this paper has been released on \url{https://github.com/Event-AHU/EFV_event_classification/tree/EFVpp}.
- Abstract(参考訳): 既存のイベントストリームベースのパターン認識モデルは、通常、イベントストリームをポイントクラウド、ボクセル、イメージなどとして表現し、さまざまなディープニューラルネットワークを設計して特徴を学習する。
しかし, モデル性能は単調なモダリティ表現, 準最適融合, 読み出し機構によって制限される可能性がある。
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
トランスフォーマーとグラフニューラルネット(GNN)を用いて空間的・三次元ステレオ情報を別々に学習することができる。
各表現の特徴には、効率的かつ冗長な特徴がまだ含まれており、差別化せずに直接融合すれば、準最適解が得られると信じている。
したがって,各特徴を3つのレベルに分割し,高品質な特徴を維持し,中質な特徴をブレンドし,低品質な特徴を交換する。
強化されたデュアル機能は、ボトルネック機能とともにフュージョントランスフォーマーに入力される。
さらに,最終表現としての特徴の多様性を高めるために,新たなハイブリッドインタラクション・リードアウト機構を導入する。
大規模な実験により,提案するフレームワークは,複数の広く使用されているイベントストリームに基づく分類データセット上で,最先端のパフォーマンスを実現することができた。
具体的には、Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51\%$を達成し、2位を+2.21\%$で上回る。
本論文のソースコードは \url{https://github.com/Event-AHU/EFV_event_classification/tree/EFVpp} で公開されている。
関連論文リスト
- Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification [6.550582412924754]
本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-08-23T06:07:56Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Multi-scale Alternated Attention Transformer for Generalized Stereo
Matching [7.493797166406228]
両視野および単一視野におけるエピポーラ線の影響のバランスをとるために,Alternated Attention U-shaped Transformer (AAUformer) と呼ばれる簡易かつ高効率なネットワークを提案する。
他のモデルと比較して、我々のモデルはいくつかの主要な設計を持っている。
我々はいくつかの主流ステレオマッチングデータセットについて比較研究とアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-08-06T08:22:39Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence [88.00004819064672]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。
提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Multi-Scale Hourglass Hierarchical Fusion Network for Single Image
Deraining [8.964751500091005]
雨のひもはサイズ、方向および密度で頻繁に変わる深刻なぼやけおよび視覚質の低下をもたらします。
現在のCNN方式は, 降雨特性の描写や, 可視性に乏しい環境下でのイメージの復元に限られている。
本稿では,マルチスケール抽出,階層蒸留,情報集約による雨天の特徴を正確に把握するために,マルチスケールのHH2F-Netを提案する。
論文 参考訳(メタデータ) (2021-04-25T08:27:01Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。