論文の概要: E-CLIP: Towards Label-efficient Event-based Open-world Understanding by
CLIP
- arxiv url: http://arxiv.org/abs/2308.03135v2
- Date: Sun, 10 Sep 2023 14:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 19:08:50.207659
- Title: E-CLIP: Towards Label-efficient Event-based Open-world Understanding by
CLIP
- Title(参考訳): E-CLIP: CLIPによるラベル効率の高いイベントベースのオープンワールド理解を目指して
- Authors: Jiazhou Zhou, Xu Zheng, Yuanhuiyi Lyu, Lin Wang
- Abstract要約: CLIP(Contrasting Language-image relateding)は近年,2次元画像認識タスクにおいて,オープンワールドと少数ショットのパフォーマンスを約束している。
イベントベース認識におけるCLIPの可能性を明らかにする新しいフレームワークであるE-CLIPを提案する。
- 参考スコア(独自算出の注目度): 8.517830626176641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrasting Language-image pertaining (CLIP) has recently shown promising
open-world and few-shot performance on 2D image-based recognition tasks.
However, the transferred capability of CLIP to the novel event camera data
still remains under-explored. In particular, due to the modality gap with the
image-text data and the lack of large-scale datasets, achieving this goal is
non-trivial and thus requires significant research innovation. In this paper,
we propose E-CLIP, a novel and effective framework that unleashes the potential
of CLIP for event-based recognition to compensate for the lack of large-scale
event-based datasets. Our work addresses two crucial challenges: 1) how to
generalize CLIP's visual encoder to event data while fully leveraging events'
unique properties, e.g., sparsity and high temporal resolution; 2) how to
effectively align the multi-modal embeddings, i.e., image, text, and events. To
this end, we first introduce a novel event encoder that subtly models the
temporal information from events and meanwhile generates event prompts to
promote the modality bridging. We then design a text encoder that generates
content prompts and utilizes hybrid text prompts to enhance the E-CLIP's
generalization ability across diverse datasets. With the proposed event
encoder, text encoder, and original image encoder, a novel Hierarchical Triple
Contrastive Alignment (HTCA) module is introduced to jointly optimize the
correlation and enable efficient knowledge transfer among the three modalities.
We conduct extensive experiments on two recognition benchmarks, and the results
demonstrate that our E-CLIP outperforms existing methods by a large margin of
+3.94% and +4.62% on the N-Caltech dataset, respectively, in both fine-tuning
and few-shot settings. Moreover, our E-CLIP can be flexibly extended to the
event retrieval task using both text or image queries, showing plausible
performance.
- Abstract(参考訳): CLIP(Contrasting Language-image relateding)は近年,2次元画像認識タスクにおいて,オープンワールドと少数ショットのパフォーマンスを約束している。
しかし、CLIPの新たなイベントカメラデータへの転送能力はまだ未調査のままである。
特に、画像テキストデータとのモダリティギャップと大規模データセットの欠如のため、この目標達成は自明ではなく、重要な研究革新を必要とする。
本稿では、大規模イベントベースデータセットの欠如を補うために、イベントベース認識のためのCLIPの可能性を明らかにする、新しく効果的なフレームワークであるE-CLIPを提案する。
私たちの仕事は2つの重要な課題に対処します
1)クリップのビジュアルエンコーダをイベントデータに一般化する方法,例えばスパーシティや時間分解能の高いイベントのユニークな特性を十分に活用する。
2)マルチモーダル埋め込み、すなわち画像、テキスト、イベントを効果的に整列する方法。
この目的のために,まずイベントエンコーダを導入し,イベントからの時間情報を微妙にモデル化し,同時にイベントプロンプトを生成し,モダリティブリッジングを促進する。
次に、コンテンツプロンプトを生成し、ハイブリッドテキストプロンプトを利用するテキストエンコーダを設計し、多様なデータセットにまたがるE-CLIPの一般化能力を向上する。
提案するイベントエンコーダ,テキストエンコーダ,および原画像エンコーダにより,新しい階層型三重コントラストアライメント(HTCA)モジュールを導入し,相関性を最適化し,3つのモード間の効率的な知識伝達を実現する。
我々は2つの認識ベンチマークで広範な実験を行い、その結果、我々のE-CLIPは、N-Caltechデータセットでそれぞれ3.94%と+4.62%という大きなマージンで既存の手法より優れていることを示した。
さらに,E-CLIPはテキストクエリと画像クエリの両方を用いてイベント検索タスクに柔軟に拡張でき,高い性能を示すことができる。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding [52.67839570524888]
オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。
リッチなイベントイメージデータセットを活用して、CLIPの画像空間と整合したイベント埋め込みスペースを学習します。
CEIAには2つの異なる利点がある。第一に、大規模なイベントテキストデータセットの不足を補うために、既存のイベントイメージデータセットを最大限に活用することができる。
論文 参考訳(メタデータ) (2024-07-09T07:26:15Z) - MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation [104.6065882758648]
MAVEN-Argは、イベント検出、イベント引数抽出、イベント関係抽出をサポートする最初のオールインワンデータセットである。
EAEベンチマークでは、(1)162のイベントタイプと612の引数ロールをカバーする包括的なスキーマ、(2)98,591のイベントと290,613の引数を含む大規模なデータスケール、(3)EAEのすべてのタスク変種をサポートする包括的なアノテーションの3つの利点がある。
論文 参考訳(メタデータ) (2023-11-15T16:52:14Z) - EventCLIP: Adapting CLIP for Event-based Object Recognition [26.35633454924899]
EventCLIPは、ゼロショットと少数ショットのイベントベースのオブジェクト認識にCLIPを使用する新しいアプローチである。
まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。
N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-10T06:05:35Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。
型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文 参考訳(メタデータ) (2022-02-15T18:01:39Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。