論文の概要: OVOSE: Open-Vocabulary Semantic Segmentation in Event-Based Cameras
- arxiv url: http://arxiv.org/abs/2408.09424v1
- Date: Sun, 18 Aug 2024 09:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:50:15.175862
- Title: OVOSE: Open-Vocabulary Semantic Segmentation in Event-Based Cameras
- Title(参考訳): OVOSE:イベントベースカメラにおけるオープン語彙セマンティックセマンティックセグメンテーション
- Authors: Muhammad Rameez Ur Rahman, Jhony H. Giraldo, Indro Spinelli, Stéphane Lathuilière, Fabio Galasso,
- Abstract要約: イベントカメラのための最初のオープン語彙セマンティックアルゴリズムであるOVOSEを紹介する。
OVOSEを2つの駆動意味セグメンテーションデータセットDDD17とDSEC-Semanticで評価する。
OVOSEは優れた性能を示し、現実世界のアプリケーションの可能性を示している。
- 参考スコア(独自算出の注目度): 18.07403094754705
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event cameras, known for low-latency operation and superior performance in challenging lighting conditions, are suitable for sensitive computer vision tasks such as semantic segmentation in autonomous driving. However, challenges arise due to limited event-based data and the absence of large-scale segmentation benchmarks. Current works are confined to closed-set semantic segmentation, limiting their adaptability to other applications. In this paper, we introduce OVOSE, the first Open-Vocabulary Semantic Segmentation algorithm for Event cameras. OVOSE leverages synthetic event data and knowledge distillation from a pre-trained image-based foundation model to an event-based counterpart, effectively preserving spatial context and transferring open-vocabulary semantic segmentation capabilities. We evaluate the performance of OVOSE on two driving semantic segmentation datasets DDD17, and DSEC-Semantic, comparing it with existing conventional image open-vocabulary models adapted for event-based data. Similarly, we compare OVOSE with state-of-the-art methods designed for closed-set settings in unsupervised domain adaptation for event-based semantic segmentation. OVOSE demonstrates superior performance, showcasing its potential for real-world applications. The code is available at https://github.com/ram95d/OVOSE.
- Abstract(参考訳): イベントカメラは、低遅延動作と挑戦的な照明条件の優れた性能で知られており、自律運転におけるセマンティックセグメンテーションのような敏感なコンピュータビジョンタスクに適している。
しかし、イベントベースのデータに制限があり、大規模なセグメンテーションベンチマークがないため、課題が生じる。
現在の作業はクローズドセットセマンティックセグメンテーションに限定されており、他のアプリケーションへの適応性を制限する。
本稿では,イベントカメラのための最初のOpen-Vocabulary Semantic SegmentationアルゴリズムであるOVOSEを紹介する。
OVOSEは、事前訓練されたイメージベース基盤モデルからイベントベースへの合成イベントデータと知識蒸留を活用し、空間コンテキストを効果的に保存し、オープン語彙セマンティックセマンティックセマンティクス機能を転送する。
本研究では,2つの駆動意味セグメンテーションデータセット DDD17 と DSEC-Semantic における OVOSE の性能を評価する。
同様に、OVOSEと、イベントベースセマンティックセグメンテーションのための教師なしドメイン適応におけるクローズドセット設定のための最先端手法の比較を行う。
OVOSEは優れた性能を示し、現実世界のアプリケーションの可能性を示している。
コードはhttps://github.com/ram95d/OVOSEで公開されている。
関連論文リスト
- Finding Meaning in Points: Weakly Supervised Semantic Segmentation for Event Cameras [45.063747874243276]
本稿では,イベントベースセマンティックセマンティックセグメンテーションのための新しい弱教師付きアプローチEV-WSSSを提案する。
提案フレームワークは,(1)前向きのイベントデータと(2)逆向きのイベントデータとの間に非対称な二重学習を行う。
提案手法は,画素レベルの高密度地下真実に頼らずとも,かなりのセグメンテーション結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T20:00:50Z) - OpenESS: Event-based Semantic Scene Understanding with Open Vocabularies [4.940059438666211]
イベントベースのセマンティックセグメンテーション(ESS)は、イベントカメラセンシングの基本的な課題である。
画像、テキスト、イベントデータドメインからの情報を相乗化し、スケーラブルなESSを実現するためにOpenESSを導入します。
DDD17とDSEC-Semanticベンチマークでは、イベントラベルもフレームラベルも使用せずに53.93%と43.31%のmIoUを実現しています。
論文 参考訳(メタデータ) (2024-05-08T17:59:58Z) - SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation [87.18373801829314]
In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
論文 参考訳(メタデータ) (2023-11-24T18:59:42Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Self-supervised Pre-training for Semantic Segmentation in an Indoor
Scene [8.357801312689622]
本稿ではセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。
我々は,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するために,コントラスト学習の変種を用いてDCNNモデルを訓練する。
提案手法は、ImageNetで事前訓練されたモデルよりも優れており、全く同じタスクでトレーニングされたモデルと異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-04T20:10:14Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - ESS: Learning Event-based Semantic Segmentation from Still Images [48.37422967330683]
イベントベースのセマンティックセグメンテーションは、センサーの新規性と高品質なラベル付きデータセットの欠如により、まだ初期段階にある。
既存のラベル付き画像データセットから、教師なしドメイン適応(UDA)を介してラベルなしイベントにセマンティックセグメンテーションタスクを転送するESSを導入する。
イベントベースのセマンティックセグメンテーションのさらなる研究を促進するために、我々はDSEC-Semanticを導入した。
論文 参考訳(メタデータ) (2022-03-18T15:30:01Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。