論文の概要: CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding
- arxiv url: http://arxiv.org/abs/2407.06611v1
- Date: Tue, 9 Jul 2024 07:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:56:02.894765
- Title: CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding
- Title(参考訳): CEIA: オープンワールドイベントベース理解のためのCLIPベースのイベントイメージアライメント
- Authors: Wenhao Xu, Wenming Weng, Yueyi Zhang, Zhiwei Xiong,
- Abstract要約: オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。
リッチなイベントイメージデータセットを活用して、CLIPの画像空間と整合したイベント埋め込みスペースを学習します。
CEIAには2つの異なる利点がある。第一に、大規模なイベントテキストデータセットの不足を補うために、既存のイベントイメージデータセットを最大限に活用することができる。
- 参考スコア(独自算出の注目度): 52.67839570524888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CEIA, an effective framework for open-world event-based understanding. Currently training a large event-text model still poses a huge challenge due to the shortage of paired event-text data. In response to this challenge, CEIA learns to align event and image data as an alternative instead of directly aligning event and text data. Specifically, we leverage the rich event-image datasets to learn an event embedding space aligned with the image space of CLIP through contrastive learning. In this way, event and text data are naturally aligned via using image data as a bridge. Particularly, CEIA offers two distinct advantages. First, it allows us to take full advantage of the existing event-image datasets to make up the shortage of large-scale event-text datasets. Second, leveraging more training data, it also exhibits the flexibility to boost performance, ensuring scalable capability. In highlighting the versatility of our framework, we make extensive evaluations through a diverse range of event-based multi-modal applications, such as object recognition, event-image retrieval, event-text retrieval, and domain adaptation. The outcomes demonstrate CEIA's distinct zero-shot superiority over existing methods on these applications.
- Abstract(参考訳): オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。
現在、大規模なイベントテキストモデルをトレーニングすることは、ペア化されたイベントテキストデータが不足しているため、依然として大きな課題となる。
この課題に対して、CEIAは、イベントデータとテキストデータを直接整列するのではなく、イベントデータとイメージデータを代替として整列することを学ぶ。
具体的には、リッチなイベントイメージデータセットを活用して、コントラスト学習を通じてCLIPの画像空間と整合したイベント埋め込み空間を学習する。
このようにして、画像データをブリッジとして使用することで、イベントデータとテキストデータを自然にアライメントする。
特にCEIAには2つの異なる利点がある。
まず、既存のイベントイメージデータセットをフル活用して、大規模なイベントテキストデータセットの不足を補うことができます。
第二に、より多くのトレーニングデータを活用することで、パフォーマンスを向上し、拡張性を確保する柔軟性も発揮される。
本フレームワークの汎用性を強調するために,オブジェクト認識,イベントイメージ検索,イベントテキスト検索,ドメイン適応など,さまざまなイベントベースのマルチモーダルアプリケーションを通じて,広範な評価を行う。
これらの結果は、CEIAが既存の手法よりも明らかにゼロショットの優位性を示している。
関連論文リスト
- Expanding Event Modality Applications through a Robust CLIP-Based Encoder [6.139775949624247]
本稿では,CLIPをイベントベースデータに転送する強力なエンコーダを提案する。
イベント埋め込みをイメージ埋め込みと整合させ、ゼロショット学習をサポートし、テキストアライメントを保存するために、CLIPsアーキテクチャを適用します。
我々のエンコーダは、ゼロショットおよび少数ショットの学習タスクにおいて、オブジェクト認識における強力な性能を達成する。
論文 参考訳(メタデータ) (2024-12-04T07:44:58Z) - EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies [4.940059438666211]
イベントベースのセマンティックセグメンテーション(ESS)は、イベントカメラセンシングの基本的な課題である。
画像、テキスト、イベントデータドメインからの情報を相乗化し、スケーラブルなESSを実現するためにOpenESSを導入します。
DDD17とDSEC-Semanticベンチマークでは、イベントラベルもフレームラベルも使用せずに53.93%と43.31%のmIoUを実現しています。
論文 参考訳(メタデータ) (2024-05-08T17:59:58Z) - Event Camera Data Dense Pre-training [10.918407820258246]
本稿では,イベントカメラデータを用いた高密度予測タスクに適したニューラルネットワークの事前学習を目的とした,自己教師付き学習フレームワークを提案する。
フレームワークをトレーニングするために、さまざまなシーンと動きパターンを特徴とする合成イベントカメラデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-20T04:36:19Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - EventCLIP: Adapting CLIP for Event-based Object Recognition [26.35633454924899]
EventCLIPは、ゼロショットと少数ショットのイベントベースのオブジェクト認識にCLIPを使用する新しいアプローチである。
まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。
N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-10T06:05:35Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。