論文の概要: EventCLIP: Adapting CLIP for Event-based Object Recognition
- arxiv url: http://arxiv.org/abs/2306.06354v3
- Date: Thu, 16 Nov 2023 19:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:12:52.186359
- Title: EventCLIP: Adapting CLIP for Event-based Object Recognition
- Title(参考訳): EventCLIP: イベントベースのオブジェクト認識のためのCLIP適応
- Authors: Ziyi Wu, Xudong Liu, Igor Gilitschenski
- Abstract要約: EventCLIPは、ゼロショットと少数ショットのイベントベースのオブジェクト認識にCLIPを使用する新しいアプローチである。
まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。
N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 26.35633454924899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in zero-shot and few-shot classification heavily rely on the
success of pre-trained vision-language models (VLMs) such as CLIP. Due to a
shortage of large-scale datasets, training such models for event camera data
remains infeasible. Thus, adapting existing VLMs across modalities to event
vision is an important research challenge. In this work, we introduce
EventCLIP, a novel approach that utilizes CLIP for zero-shot and few-shot
event-based object recognition. We first generalize CLIP's image encoder to
event data by converting raw events to 2D grid-based representations. To
further enhance performance, we propose a feature adapter to aggregate temporal
information over event frames and refine text embeddings to better align with
the visual inputs. We evaluate EventCLIP on N-Caltech, N-Cars, and N-ImageNet
datasets, achieving state-of-the-art few-shot performance. When fine-tuned on
the entire dataset, our method outperforms all existing event classifiers.
Moreover, we explore practical applications of EventCLIP including robust event
classification and label-free event recognition, where our approach surpasses
previous baselines designed specifically for these tasks.
- Abstract(参考訳): ゼロショットと少数ショット分類の最近の進歩は、CLIPのような事前訓練された視覚言語モデル(VLM)の成功に大きく依存している。
大規模データセットが不足しているため、イベントカメラデータのトレーニングは実現不可能である。
したがって、既存のVLMをイベントビジョンに適用することは重要な研究課題である。
本稿では,ゼロショットおよび少数ショットのイベントベースオブジェクト認識にCLIPを利用する新しいアプローチであるEventCLIPを紹介する。
まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。
性能向上のために,イベントフレーム上の時間情報を集約し,テキスト埋め込みを改良し,視覚的入力との整合性を向上する機能アダプタを提案する。
N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
データセット全体を微調整すると、既存のすべてのイベント分類器を上回ってしまう。
さらに,より堅牢なイベント分類やラベルなしイベント認識など,EventCLIPの実践的応用についても検討する。
関連論文リスト
- Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。
イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文 参考訳(メタデータ) (2024-03-05T01:46:50Z) - EventBind: Learning a Unified Representation to Bind Them All for
Event-based Open-world Understanding [8.517830626176641]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。
型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文 参考訳(メタデータ) (2022-02-15T18:01:39Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - N-ImageNet: Towards Robust, Fine-Grained Object Recognition with Event
Cameras [5.726662931271546]
我々は,イベントカメラを用いた堅牢できめ細かい物体認識を目的とした大規模データセットであるN-ImageNetを紹介する。
N-ImageNetは、多数のクラスとサンプルのために、イベントベースのオブジェクト認識の難しいベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-12-02T08:08:32Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z) - Event-LSTM: An Unsupervised and Asynchronous Learning-based
Representation for Event-based Data [8.931153235278831]
イベントカメラは、アクティビティ駆動のバイオインスパイアされたビジョンセンサーです。
LSTM層からなる教師なしオートエンコーダアーキテクチャであるEvent-LSTMを提案する。
また、最先端のイベントをデノージングプロセスにメモリを導入することで、デノージングを前進させます。
論文 参考訳(メタデータ) (2021-05-10T09:18:52Z) - A Differentiable Recurrent Surface for Asynchronous Event-Based Data [19.605628378366667]
本研究では,Long Short-Term Memory (LSTM) セルのグリッドであるMatrix-LSTMを提案する。
既存の再構成手法と比較して,学習した事象表面は柔軟性と光フロー推定に優れていた。
N-Carsデータセット上でのイベントベースのオブジェクト分類の最先端性を改善する。
論文 参考訳(メタデータ) (2020-01-10T14:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。