論文の概要: OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies
- arxiv url: http://arxiv.org/abs/2405.05259v1
- Date: Wed, 8 May 2024 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 13:45:01.139768
- Title: OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies
- Title(参考訳): OpenESS: オープン語彙によるイベントベースのセマンティックシーン理解
- Authors: Lingdong Kong, Youquan Liu, Lai Xing Ng, Benoit R. Cottereau, Wei Tsang Ooi,
- Abstract要約: イベントベースのセマンティックセグメンテーション(ESS)は、イベントカメラセンシングの基本的な課題である。
画像、テキスト、イベントデータドメインからの情報を相乗化し、スケーラブルなESSを実現するためにOpenESSを導入します。
DDD17とDSEC-Semanticベンチマークでは、イベントラベルもフレームラベルも使用せずに53.93%と43.31%のmIoUを実現しています。
- 参考スコア(独自算出の注目度): 4.940059438666211
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Event-based semantic segmentation (ESS) is a fundamental yet challenging task for event camera sensing. The difficulties in interpreting and annotating event data limit its scalability. While domain adaptation from images to event data can help to mitigate this issue, there exist data representational differences that require additional effort to resolve. In this work, for the first time, we synergize information from image, text, and event-data domains and introduce OpenESS to enable scalable ESS in an open-world, annotation-efficient manner. We achieve this goal by transferring the semantically rich CLIP knowledge from image-text pairs to event streams. To pursue better cross-modality adaptation, we propose a frame-to-event contrastive distillation and a text-to-event semantic consistency regularization. Experimental results on popular ESS benchmarks showed our approach outperforms existing methods. Notably, we achieve 53.93% and 43.31% mIoU on DDD17 and DSEC-Semantic without using either event or frame labels.
- Abstract(参考訳): イベントベースのセマンティックセグメンテーション(ESS)は、イベントカメラセンシングの基本的な課題である。
イベントデータの解釈とアノテーションの難しさは、スケーラビリティを制限します。
画像からイベントデータへのドメイン適応はこの問題を軽減するのに役立つが、解決するための追加の努力を必要とするデータ表現の違いが存在する。
この作業では、画像、テキスト、イベントデータドメインからの情報を初めてシナジライズし、OpenESSを導入し、オープンワールド、アノテーション非効率な方法でスケーラブルなESSを可能にする。
セマンティックにリッチなCLIP知識をイメージテキストペアからイベントストリームに転送することで、この目標を達成する。
そこで本研究では, フレーム・ツー・エグゼクティブ・コントラスト蒸留とテキスト・ツー・エグゼクティブ・セマンティック・整合性正規化を提案する。
人気のあるESSベンチマーク実験の結果,提案手法は既存手法よりも優れていた。
特に、イベントラベルもフレームラベルも使用せずに、DDD17とDSEC-Semanticで53.93%、43.31%のmIoUを実現しています。
関連論文リスト
- OVOSE: Open-Vocabulary Semantic Segmentation in Event-Based Cameras [18.07403094754705]
イベントカメラのための最初のオープン語彙セマンティックアルゴリズムであるOVOSEを紹介する。
OVOSEを2つの駆動意味セグメンテーションデータセットDDD17とDSEC-Semanticで評価する。
OVOSEは優れた性能を示し、現実世界のアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2024-08-18T09:56:32Z) - CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding [52.67839570524888]
オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。
リッチなイベントイメージデータセットを活用して、CLIPの画像空間と整合したイベント埋め込みスペースを学習します。
CEIAには2つの異なる利点がある。第一に、大規模なイベントテキストデータセットの不足を補うために、既存のイベントイメージデータセットを最大限に活用することができる。
論文 参考訳(メタデータ) (2024-07-09T07:26:15Z) - Towards Event Extraction from Speech with Contextual Clues [61.164413398231254]
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
論文 参考訳(メタデータ) (2024-01-27T11:07:19Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - ESS: Learning Event-based Semantic Segmentation from Still Images [48.37422967330683]
イベントベースのセマンティックセグメンテーションは、センサーの新規性と高品質なラベル付きデータセットの欠如により、まだ初期段階にある。
既存のラベル付き画像データセットから、教師なしドメイン適応(UDA)を介してラベルなしイベントにセマンティックセグメンテーションタスクを転送するESSを導入する。
イベントベースのセマンティックセグメンテーションのさらなる研究を促進するために、我々はDSEC-Semanticを導入した。
論文 参考訳(メタデータ) (2022-03-18T15:30:01Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。