Fugu-MT 論文翻訳(概要): EventCLIP: Adapting CLIP for Event-based Object Recognition

論文の概要: EventCLIP: Adapting CLIP for Event-based Object Recognition

arxiv url: http://arxiv.org/abs/2306.06354v3
Date: Thu, 16 Nov 2023 19:26:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 19:12:52.186359
Title: EventCLIP: Adapting CLIP for Event-based Object Recognition
Title（参考訳）: EventCLIP: イベントベースのオブジェクト認識のためのCLIP適応
Authors: Ziyi Wu, Xudong Liu, Igor Gilitschenski
Abstract要約: EventCLIPは、ゼロショットと少数ショットのイベントベースのオブジェクト認識にCLIPを使用する新しいアプローチである。まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。 N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 26.35633454924899
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in zero-shot and few-shot classification heavily rely on the success of pre-trained vision-language models (VLMs) such as CLIP. Due to a shortage of large-scale datasets, training such models for event camera data remains infeasible. Thus, adapting existing VLMs across modalities to event vision is an important research challenge. In this work, we introduce EventCLIP, a novel approach that utilizes CLIP for zero-shot and few-shot event-based object recognition. We first generalize CLIP's image encoder to event data by converting raw events to 2D grid-based representations. To further enhance performance, we propose a feature adapter to aggregate temporal information over event frames and refine text embeddings to better align with the visual inputs. We evaluate EventCLIP on N-Caltech, N-Cars, and N-ImageNet datasets, achieving state-of-the-art few-shot performance. When fine-tuned on the entire dataset, our method outperforms all existing event classifiers. Moreover, we explore practical applications of EventCLIP including robust event classification and label-free event recognition, where our approach surpasses previous baselines designed specifically for these tasks.
Abstract（参考訳）: ゼロショットと少数ショット分類の最近の進歩は、CLIPのような事前訓練された視覚言語モデル(VLM)の成功に大きく依存している。大規模データセットが不足しているため、イベントカメラデータのトレーニングは実現不可能である。したがって、既存のVLMをイベントビジョンに適用することは重要な研究課題である。本稿では,ゼロショットおよび少数ショットのイベントベースオブジェクト認識にCLIPを利用する新しいアプローチであるEventCLIPを紹介する。まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。性能向上のために,イベントフレーム上の時間情報を集約し,テキスト埋め込みを改良し,視覚的入力との整合性を向上する機能アダプタを提案する。 N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。データセット全体を微調整すると、既存のすべてのイベント分類器を上回ってしまう。さらに,より堅牢なイベント分類やラベルなしイベント認識など,EventCLIPの実践的応用についても検討する。

関連論文リスト

Expanding Event Modality Applications through a Robust CLIP-Based Encoder [6.139775949624247]
本稿では,CLIPをイベントベースデータに転送する強力なエンコーダを提案する。イベント埋め込みをイメージ埋め込みと整合させ、ゼロショット学習をサポートし、テキストアライメントを保存するために、CLIPsアーキテクチャを適用します。我々のエンコーダは、ゼロショットおよび少数ショットの学習タスクにおいて、オブジェクト認識における強力な性能を達成する。
論文参考訳（メタデータ） (2024-12-04T07:44:58Z)
CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding [52.67839570524888]
オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。リッチなイベントイメージデータセットを活用して、CLIPの画像空間と整合したイベント埋め込みスペースを学習します。 CEIAには2つの異なる利点がある。第一に、大規模なイベントテキストデータセットの不足を補うために、既存のイベントイメージデータセットを最大限に活用することができる。
論文参考訳（メタデータ） (2024-07-09T07:26:15Z)
GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。 GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文参考訳（メタデータ） (2024-04-07T00:28:13Z)
Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文参考訳（メタデータ） (2024-03-05T01:46:50Z)
EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文参考訳（メタデータ） (2023-08-06T15:05:42Z)
PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文参考訳（メタデータ） (2022-02-15T18:01:39Z)
CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2022-01-13T17:03:57Z)
N-ImageNet: Towards Robust, Fine-Grained Object Recognition with Event Cameras [5.726662931271546]
我々は,イベントカメラを用いた堅牢できめ細かい物体認識を目的とした大規模データセットであるN-ImageNetを紹介する。 N-ImageNetは、多数のクラスとサンプルのために、イベントベースのオブジェクト認識の難しいベンチマークとして機能する。
論文参考訳（メタデータ） (2021-12-02T08:08:32Z)
Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文参考訳（メタデータ） (2021-10-19T17:41:43Z)
Event-LSTM: An Unsupervised and Asynchronous Learning-based Representation for Event-based Data [8.931153235278831]
イベントカメラは、アクティビティ駆動のバイオインスパイアされたビジョンセンサーです。 LSTM層からなる教師なしオートエンコーダアーキテクチャであるEvent-LSTMを提案する。また、最先端のイベントをデノージングプロセスにメモリを導入することで、デノージングを前進させます。
論文参考訳（メタデータ） (2021-05-10T09:18:52Z)
A Differentiable Recurrent Surface for Asynchronous Event-Based Data [19.605628378366667]
本研究では,Long Short-Term Memory (LSTM) セルのグリッドであるMatrix-LSTMを提案する。既存の再構成手法と比較して,学習した事象表面は柔軟性と光フロー推定に優れていた。 N-Carsデータセット上でのイベントベースのオブジェクト分類の最先端性を改善する。
論文参考訳（メタデータ） (2020-01-10T14:09:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。