Fugu-MT 論文翻訳(概要): EventCLIP: Adapting CLIP for Event-based Object Recognition

論文の概要: EventCLIP: Adapting CLIP for Event-based Object Recognition

arxiv url: http://arxiv.org/abs/2306.06354v1
Date: Sat, 10 Jun 2023 06:05:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 19:35:31.401798
Title: EventCLIP: Adapting CLIP for Event-based Object Recognition
Title（参考訳）: EventCLIP: イベントベースのオブジェクト認識のためのCLIP適応
Authors: Ziyi Wu, Xudong Liu, Igor Gilitschenski
Abstract要約: EventCLIPは、イベントカメラデータに対するゼロショットおよび少数ショット認識にCLIPを使用する新しい方法である。生イベントを2次元グリッドベース表現に変換することで、ゼロショットイベント分類のためのCLIPのイメージ埋め込みの適合性を実証する。我々は,N-Caltech,N-Cars,N-ImageNetのデータセットを,EventCLIPが最先端のパフォーマンスを達成する数ショットの学習環境下で評価した。
参考スコア（独自算出の注目度）: 15.626141892386517
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in 2D zero-shot and few-shot recognition often leverage large pre-trained vision-language models (VLMs) such as CLIP. Due to a shortage of suitable datasets, it is currently infeasible to train such models for event camera data. Thus, leveraging existing models across modalities is an important research challenge. In this work, we propose EventCLIP, a new method that utilizes CLIP for zero-shot and few-shot recognition on event camera data. First, we demonstrate the suitability of CLIP's image embeddings for zero-shot event classification by converting raw events to 2D grid-based representations. Second, we propose a feature adapter that aggregates temporal information over event frames and refines text embeddings to better align with the visual inputs. We evaluate our work on N-Caltech, N-Cars, and N-ImageNet datasets under the few-shot learning setting, where EventCLIP achieves state-of-the-art performance. Finally, we show that the robustness of existing event-based classifiers against data variations can be further boosted by ensembling with EventCLIP.
Abstract（参考訳）: 近年の2次元ゼロショットと少数ショット認識の進歩は、CLIPのような大規模な訓練済み視覚言語モデル(VLM)を利用することが多い。適切なデータセットが不足しているため、イベントカメラデータのためにそのようなモデルをトレーニングすることは不可能である。したがって、モダリティにまたがる既存のモデルを活用することは重要な研究課題である。本研究では,イベントカメラデータに対するゼロショット認識と少数ショット認識にCLIPを利用する新しい手法であるEventCLIPを提案する。まず,rawイベントを2dグリッドベース表現に変換することで,ゼロショットイベント分類のためのクリップ画像埋め込みの適合性を示す。第2に,イベントフレーム上で時間情報を集約し,テキスト埋め込みを洗練し,視覚的入力との整合性を向上させる機能アダプタを提案する。我々は,N-Caltech,N-Cars,N-ImageNetのデータセットを,EventCLIPが最先端のパフォーマンスを達成する数ショットの学習環境下で評価した。最後に,データ変動に対する既存のイベントベース分類器の堅牢性は,EventCLIPを組み込むことでさらに向上できることを示す。

関連論文リスト

Expanding Event Modality Applications through a Robust CLIP-Based Encoder [6.139775949624247]
本稿では,CLIPをイベントベースデータに転送する強力なエンコーダを提案する。イベント埋め込みをイメージ埋め込みと整合させ、ゼロショット学習をサポートし、テキストアライメントを保存するために、CLIPsアーキテクチャを適用します。我々のエンコーダは、ゼロショットおよび少数ショットの学習タスクにおいて、オブジェクト認識における強力な性能を達成する。
論文参考訳（メタデータ） (2024-12-04T07:44:58Z)
CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding [52.67839570524888]
オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。リッチなイベントイメージデータセットを活用して、CLIPの画像空間と整合したイベント埋め込みスペースを学習します。 CEIAには2つの異なる利点がある。第一に、大規模なイベントテキストデータセットの不足を補うために、既存のイベントイメージデータセットを最大限に活用することができる。
論文参考訳（メタデータ） (2024-07-09T07:26:15Z)
GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。 GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文参考訳（メタデータ） (2024-04-07T00:28:13Z)
Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文参考訳（メタデータ） (2024-03-05T01:46:50Z)
EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文参考訳（メタデータ） (2023-08-06T15:05:42Z)
PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文参考訳（メタデータ） (2022-02-15T18:01:39Z)
CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2022-01-13T17:03:57Z)
N-ImageNet: Towards Robust, Fine-Grained Object Recognition with Event Cameras [5.726662931271546]
我々は,イベントカメラを用いた堅牢できめ細かい物体認識を目的とした大規模データセットであるN-ImageNetを紹介する。 N-ImageNetは、多数のクラスとサンプルのために、イベントベースのオブジェクト認識の難しいベンチマークとして機能する。
論文参考訳（メタデータ） (2021-12-02T08:08:32Z)
Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文参考訳（メタデータ） (2021-10-19T17:41:43Z)
Event-LSTM: An Unsupervised and Asynchronous Learning-based Representation for Event-based Data [8.931153235278831]
イベントカメラは、アクティビティ駆動のバイオインスパイアされたビジョンセンサーです。 LSTM層からなる教師なしオートエンコーダアーキテクチャであるEvent-LSTMを提案する。また、最先端のイベントをデノージングプロセスにメモリを導入することで、デノージングを前進させます。
論文参考訳（メタデータ） (2021-05-10T09:18:52Z)
A Differentiable Recurrent Surface for Asynchronous Event-Based Data [19.605628378366667]
本研究では,Long Short-Term Memory (LSTM) セルのグリッドであるMatrix-LSTMを提案する。既存の再構成手法と比較して,学習した事象表面は柔軟性と光フロー推定に優れていた。 N-Carsデータセット上でのイベントベースのオブジェクト分類の最先端性を改善する。
論文参考訳（メタデータ） (2020-01-10T14:09:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。