論文の概要: Expanding Event Modality Applications through a Robust CLIP-Based Encoder
- arxiv url: http://arxiv.org/abs/2412.03093v1
- Date: Wed, 04 Dec 2024 07:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:15.325421
- Title: Expanding Event Modality Applications through a Robust CLIP-Based Encoder
- Title(参考訳): ロバストCLIPベースのエンコーダによるイベントモダリティアプリケーションの拡張
- Authors: Sungheon Jeong, Hanning Chen, Sanggeon Yun, Suhyeon Cho, Wenjun Huang, Xiangjian Liu, Mohsen Imani,
- Abstract要約: 本稿では,CLIPをイベントベースデータに転送する強力なエンコーダを提案する。
イベント埋め込みをイメージ埋め込みと整合させ、ゼロショット学習をサポートし、テキストアライメントを保存するために、CLIPsアーキテクチャを適用します。
我々のエンコーダは、ゼロショットおよび少数ショットの学習タスクにおいて、オブジェクト認識における強力な性能を達成する。
- 参考スコア(独自算出の注目度): 6.139775949624247
- License:
- Abstract: This paper introduces a powerful encoder that transfers CLIP`s capabilities to event-based data, enhancing its utility and expanding its applicability across diverse domains. While large-scale datasets have significantly advanced image-based models, the scarcity of comprehensive event datasets has limited performance potential in event modality. To address this challenge, we adapt CLIP`s architecture to align event embeddings with image embeddings, supporting zero-shot learning and preserving text alignment while mitigating catastrophic forgetting. Our encoder achieves strong performance in object recognition, with competitive results in zero-shot and few-shot learning tasks. Notably, it generalizes effectively to events extracted from video data without requiring additional training, highlighting its versatility. Additionally, we integrate this encoder within a cross-modality framework that facilitates interaction across five modalities-Image, Event, Text, Sound, and Depth-expanding the possibilities for cross-modal applications. Overall, this work underscores the transformative potential of a robust event encoder, broadening the scope and utility of event-based data across various fields.
- Abstract(参考訳): 本稿では,CLIPの機能をイベントベースデータに転送する強力なエンコーダを提案する。
大規模なデータセットは画像ベースモデルが大幅に進歩する一方で、包括的なイベントデータセットの不足は、イベントのモダリティにおけるパフォーマンスの可能性を限定している。
この課題に対処するために、CLIPのアーキテクチャを適用して、イベント埋め込みをイメージ埋め込みと整合させ、ゼロショット学習をサポートし、破滅的な忘れを軽減しつつテキストアライメントを保存する。
我々のエンコーダは、ゼロショットおよび少数ショットの学習タスクにおいて、オブジェクト認識における強力な性能を達成する。
特に、追加のトレーニングを必要とせずに、ビデオデータから抽出したイベントを効果的に一般化し、その汎用性を強調します。
さらに、私たちはこのエンコーダを、画像、イベント、テキスト、サウンド、深さといった5つのモダリティ間の相互作用を容易にするクロスモーダルフレームワークに統合します。
全体として、この研究は、堅牢なイベントエンコーダの変換可能性を強調し、さまざまなフィールドにわたるイベントベースのデータの範囲と有用性を広げている。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities [0.08192907805418585]
クロスモーダルアライメント学習は、テキスト、画像、オーディオ、ビデオなどのさまざまなモダリティからの情報を統合して、統一されたモデルを作成する。
現在のテクニックは、大規模なモダリティ固有のエンコーダに依存しており、広範囲に整列したデータセット上で、スクラッチから微調整やトレーニングを必要とする。
OneEncoderは4つのモダリティを徐々に表現し調整する軽量フレームワークである。
論文 参考訳(メタデータ) (2024-09-17T10:38:46Z) - CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding [52.67839570524888]
オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。
リッチなイベントイメージデータセットを活用して、CLIPの画像空間と整合したイベント埋め込みスペースを学習します。
CEIAには2つの異なる利点がある。第一に、大規模なイベントテキストデータセットの不足を補うために、既存のイベントイメージデータセットを最大限に活用することができる。
論文 参考訳(メタデータ) (2024-07-09T07:26:15Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - EventCLIP: Adapting CLIP for Event-based Object Recognition [26.35633454924899]
EventCLIPは、ゼロショットと少数ショットのイベントベースのオブジェクト認識にCLIPを使用する新しいアプローチである。
まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。
N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-10T06:05:35Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Dual Transfer Learning for Event-based End-task Prediction via Pluggable
Event to Image Translation [33.28163268182018]
イベントカメラは、ピクセルごとの強度変化を認識し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを出力する。
イベントは、エンコーダ・デコーダのようなネットワークに基づいて、エンドタスク学習、例えばセマンティックセグメンテーションにのみ使用できることが示されている。
本稿では,DTL(Dual Transfer Learning)と呼ばれるシンプルで柔軟な2ストリームフレームワークを提案し,エンドタスクの性能を効果的に向上させる。
論文 参考訳(メタデータ) (2021-09-04T06:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。