Fugu-MT 論文翻訳(概要): EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding

論文の概要: EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding

arxiv url: http://arxiv.org/abs/2308.03135v3
Date: Fri, 8 Mar 2024 08:16:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 23:38:13.500938
Title: EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding
Title（参考訳）: EventBind: イベントベースのオープンワールド理解のためのバインディングテーマの統一表現学習
Authors: Jiazhou Zhou, Xu Zheng, Yuanhuiyi Lyu, Lin Wang
Abstract要約: EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
参考スコア（独自算出の注目度）: 8.517830626176641
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose EventBind, a novel and effective framework that unleashes the potential of vision-language models (VLMs) for event-based recognition to compensate for the lack of large-scale event-based datasets. In particular, due to the distinct modality gap with the image-text data and the lack of large-scale datasets, learning a common representation space for images, texts, and events is non-trivial.Intuitively, we need to address two key challenges: 1) how to generalize CLIP's visual encoder to event data while fully leveraging events' unique properties, e.g., sparsity and high temporal resolution; 2) how to effectively align the multi-modal embeddings, i.e., image, text, and events. Accordingly, we first introduce a novel event encoder that subtly models the temporal information from events and meanwhile, generates event prompts for modality bridging. We then design a text encoder that generates content prompts and utilizes hybrid text prompts to enhance EventBind's generalization ability across diverse datasets.With the proposed event encoder, text encoder, and image encoder, a novel Hierarchical Triple Contrastive Alignment (HTCA) module is introduced to jointly optimize the correlation and enable efficient knowledge transfer among the three modalities. We evaluate various settings, including fine-tuning and few-shot on three benchmarks, and our EventBind achieves new state-of-the-art accuracy compared with the previous methods, such as on N-Caltech 101 +5.34% and +1.70%) and N-Imagenet(+5.65% and +1.99%) with fine-tuning and 20-shot settings, respectively. Moreover, our EventBind can be flexibly extended to the event retrieval task using text or image queries, showing plausible performance. Our project code will be made publicly available.
Abstract（参考訳）: 本稿では,大規模イベントベースデータセットの欠如を補うために,イベントベース認識のための視覚言語モデル(VLM)の可能性を解き放つ,斬新で効果的なフレームワークであるEventBindを提案する。特に、画像テキストデータとの異なるモダリティギャップと大規模なデータセットの欠如のため、画像、テキスト、イベントの共通表現空間を学ぶのは簡単ではありません。 1)クリップのビジュアルエンコーダをイベントデータに一般化する方法,例えばスパーシティや時間分解能の高いイベントのユニークな特性を十分に活用する。 2)マルチモーダル埋め込み、すなわち画像、テキスト、イベントを効果的に整列する方法。そこで我々はまず,イベントから時間情報を微妙にモデル化する新しいイベントエンコーダを導入するとともに,モダリティブリッジのためのイベントプロンプトを生成する。提案するイベントエンコーダ,テキストエンコーダ,画像エンコーダを用いて,新たな階層型三重コントラストアライメント(HTCA)モジュールを導入し,相関関係の最適化と3つのモード間の効率的な知識伝達を実現する。 N-Caltech 101 +5.34% および +1.70%) や N-Imagenet (+5.65% と +1.99%) でそれぞれ微調整と20ショット設定を行うなど,従来の手法と比較して新しい最先端の精度を実現しています。さらに、eventbindは、テキストや画像クエリを使用して、柔軟にイベント検索タスクに拡張することができ、実行可能なパフォーマンスを示します。私たちのプロジェクトコードは公開されます。

関連論文リスト

OmniEvent: Unified Event Representation Learning [20.211879134897618]
イベントネットワークは、非構造化データ分布と空間時空間(S-T)の不均一性のため、タスク固有の設計に大きく依存している。我々は,OmniEventを提案する。OmniEventは,多様なタスクにまたがってSOTAのパフォーマンスを実現する,最初の統合されたイベント表現学習フレームワークである。
論文参考訳（メタデータ） (2025-08-03T16:56:36Z)
Expanding Event Modality Applications through a Robust CLIP-Based Encoder [6.139775949624247]
本稿では,CLIPをイベントベースデータに転送する強力なエンコーダを提案する。イベント埋め込みをイメージ埋め込みと整合させ、ゼロショット学習をサポートし、テキストアライメントを保存するために、CLIPsアーキテクチャを適用します。我々のエンコーダは、ゼロショットおよび少数ショットの学習タスクにおいて、オブジェクト認識における強力な性能を達成する。
論文参考訳（メタデータ） (2024-12-04T07:44:58Z)
EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文参考訳（メタデータ） (2024-12-01T14:38:40Z)
Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文参考訳（メタデータ） (2024-10-07T17:59:48Z)
CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding [52.67839570524888]
オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。リッチなイベントイメージデータセットを活用して、CLIPの画像空間と整合したイベント埋め込みスペースを学習します。 CEIAには2つの異なる利点がある。第一に、大規模なイベントテキストデータセットの不足を補うために、既存のイベントイメージデータセットを最大限に活用することができる。
論文参考訳（メタデータ） (2024-07-09T07:26:15Z)
MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation [104.6065882758648]
MAVEN-Argは、イベント検出、イベント引数抽出、イベント関係抽出をサポートする最初のオールインワンデータセットである。 EAEベンチマークでは、(1)162のイベントタイプと612の引数ロールをカバーする包括的なスキーマ、(2)98,591のイベントと290,613の引数を含む大規模なデータスケール、(3)EAEのすべてのタスク変種をサポートする包括的なアノテーションの3つの利点がある。
論文参考訳（メタデータ） (2023-11-15T16:52:14Z)
EventCLIP: Adapting CLIP for Event-based Object Recognition [26.35633454924899]
EventCLIPは、ゼロショットと少数ショットのイベントベースのオブジェクト認識にCLIPを使用する新しいアプローチである。まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。 N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-06-10T06:05:35Z)
Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文参考訳（メタデータ） (2022-04-11T15:05:06Z)
PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文参考訳（メタデータ） (2022-02-15T18:01:39Z)
CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2022-01-13T17:03:57Z)
Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文参考訳（メタデータ） (2021-09-13T20:50:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。