論文の概要: EZSR: Event-based Zero-Shot Recognition
- arxiv url: http://arxiv.org/abs/2407.21616v1
- Date: Wed, 31 Jul 2024 14:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 12:27:41.677755
- Title: EZSR: Event-based Zero-Shot Recognition
- Title(参考訳): EZSR:イベントベースのゼロショット認識
- Authors: Yan Yang, Liyuan Pan, Dongxu Li, Liu Liu,
- Abstract要約: 本稿では,イベントカメラデータを用いたゼロショット物体認識について検討する。
イベントエンコーダを追加の再構成ネットワークに頼ることなく開発する。
N-ImageNetデータセットで47.84%のゼロショット精度を達成した。
- 参考スコア(独自算出の注目度): 21.10165234725309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies zero-shot object recognition using event camera data. Guided by CLIP, which is pre-trained on RGB images, existing approaches achieve zero-shot object recognition by maximizing embedding similarities between event data encoded by an event encoder and RGB images encoded by the CLIP image encoder. Alternatively, several methods learn RGB frame reconstructions from event data for the CLIP image encoder. However, these approaches often result in suboptimal zero-shot performance. This study develops an event encoder without relying on additional reconstruction networks. We theoretically analyze the performance bottlenecks of previous approaches: global similarity-based objective (i.e., maximizing the embedding similarities) cause semantic misalignments between the learned event embedding space and the CLIP text embedding space due to the degree of freedom. To mitigate the issue, we explore a scalar-wise regularization strategy. Furthermore, to scale up the number of events and RGB data pairs for training, we also propose a pipeline for synthesizing event data from static RGB images. Experimentally, our data synthesis strategy exhibits an attractive scaling property, and our method achieves superior zero-shot object recognition performance on extensive standard benchmark datasets, even compared with past supervised learning approaches. For example, we achieve 47.84% zero-shot accuracy on the N-ImageNet dataset.
- Abstract(参考訳): 本稿では,イベントカメラデータを用いたゼロショット物体認識について検討する。
既存のアプローチでは,イベントエンコーダでエンコードされたイベントデータと,CLIP画像エンコーダでエンコードされたRGBイメージとの類似性を最大化することにより,ゼロショットオブジェクト認識を実現する。
あるいは、CLIP画像エンコーダのイベントデータからRGBフレーム再構成を学ぶ方法もある。
しかし、これらのアプローチは、しばしば準最適ゼロショット性能をもたらす。
本研究では,イベントエンコーダを追加の再構成ネットワークに頼ることなく開発する。
グローバルな類似性に基づく目的(つまり、埋め込み類似性を最大化する)は、学習したイベント埋め込み空間とCLIPテキスト埋め込み空間とのセマンティックなミスアライメントを引き起こす。
問題を緩和するために、スカラーワイドな正規化戦略を検討する。
さらに、トレーニング用イベント数とRGBデータペアのスケールアップのために、静的なRGB画像からイベントデータを合成するためのパイプラインも提案する。
提案手法は,従来の教師付き学習手法と比較して,広範囲な標準ベンチマークデータセットにおいて,より優れたゼロショットオブジェクト認識性能を実現する。
例えば、N-ImageNetデータセットで47.84%のゼロショット精度を達成する。
関連論文リスト
- Double Deep Learning-based Event Data Coding and Classification [45.8313373627054]
イベントカメラは、"イベント"と呼ばれる、画素ごとの非同期の明るさ変化をキャプチャする機能を持つ
本稿では、イベントのポイントクラウドベースの表現を用いて、イベントデータ符号化と分類の両方のための新しいダブルディープラーニングベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-22T10:45:55Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - Graph-based Asynchronous Event Processing for Rapid Object Recognition [59.112755601918074]
イベントカメラは、各イベントがピクセル位置、トリガ時間、明るさの極性が変化するような非同期イベントストリームをキャプチャする。
イベントカメラのための新しいグラフベースのフレームワーク、SlideGCNを紹介した。
当社のアプローチでは、データをイベント単位で効率的に処理し、内部でグラフの構造を維持しながら、イベントデータの低レイテンシ特性を解放することが可能です。
論文 参考訳(メタデータ) (2023-08-28T08:59:57Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Event Camera Data Pre-training [14.77724035068357]
我々のモデルは、自己教師付き学習フレームワークであり、ペア化されたイベントカメラデータと自然なRGBイメージをトレーニングに使用しています。
我々はN-ImageNetデータセットで64.83%でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-01-05T06:32:50Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。