論文の概要: Segment Any Events with Language
- arxiv url: http://arxiv.org/abs/2601.23159v1
- Date: Fri, 30 Jan 2026 16:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.56748
- Title: Segment Any Events with Language
- Title(参考訳): 言語でイベントをセグメンテーションする
- Authors: Seungjun Lee, Gim Hee Lee,
- Abstract要約: これは、Open-Vocabulary Event Instance (OV-EIS)に対処する最初のセマンティック対応のAny Eventsフレームワークです。
視覚的プロンプトを前提として,本モデルでは,セグメンテーションイベントとオープンボキャブラリマスクの分類を,複数レベルの粒度でサポートする統一フレームワークを提案する。
我々のSEALは、パラメータ効率のよいアーキテクチャで性能と推論速度の点で提案されたベースラインよりも大きく優れています。
- 参考スコア(独自算出の注目度): 68.05185562243356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene understanding with free-form language has been widely explored within diverse modalities such as images, point clouds, and LiDAR. However, related studies on event sensors are scarce or narrowly centered on semantic-level understanding. We introduce SEAL, the first Semantic-aware Segment Any Events framework that addresses Open-Vocabulary Event Instance Segmentation (OV-EIS). Given the visual prompt, our model presents a unified framework to support both event segmentation and open-vocabulary mask classification at multiple levels of granularity, including instance-level and part-level. To enable thorough evaluation on OV-EIS, we curate four benchmarks that cover label granularity from coarse to fine class configurations and semantic granularity from instance-level to part-level understanding. Extensive experiments show that our SEAL largely outperforms proposed baselines in terms of performance and inference speed with a parameter-efficient architecture. In the Appendix, we further present a simple variant of our SEAL achieving generic spatiotemporal OV-EIS that does not require any visual prompts from users in the inference. Check out our project page in https://0nandon.github.io/SEAL
- Abstract(参考訳): 自由形式の言語によるシーン理解は、画像、点雲、LiDARなどの様々なモダリティの中で広く研究されている。
しかし、事象センサに関する関連する研究は、意味レベルの理解に乏しく、あるいは狭く焦点を絞っている。
OV-EIS(Open-Vocabulary Event Instance Segmentation)に対処するSemantic-aware Segment Any EventsフレームワークであるSEALを紹介する。
視覚的プロンプトを前提として,イベントセグメンテーションとオープンボキャブラリマスクの分類を複数レベルの粒度でサポートする統合フレームワークを提案する。
OV-EISの詳細な評価を可能にするため、粗粒度から細粒度までのラベルの粒度と、インスタンスレベルから部分レベルへのセマンティックな粒度を含む4つのベンチマークをキュレートする。
大規模な実験の結果,SEALはパラメータ効率のよいアーキテクチャで性能と推論速度の点で,提案したベースラインをほぼ上回っていることがわかった。
In the Appendix, we present a simple variant of our SEAL which achieved generic spatiotemporal OV-EIS that does not required any visual prompts in the inference。
プロジェクトのページはhttps://0nandon.github.io/SEALで確認できます。
関連論文リスト
- Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。
我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-27T20:02:12Z) - Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.941958367737408]
Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文 参考訳(メタデータ) (2025-01-08T18:58:24Z) - OVOSE: Open-Vocabulary Semantic Segmentation in Event-Based Cameras [18.07403094754705]
イベントカメラのための最初のオープン語彙セマンティックアルゴリズムであるOVOSEを紹介する。
OVOSEを2つの駆動意味セグメンテーションデータセットDDD17とDSEC-Semanticで評価する。
OVOSEは優れた性能を示し、現実世界のアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2024-08-18T09:56:32Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Segment and Caption Anything [126.20201216616137]
本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
論文 参考訳(メタデータ) (2023-12-01T19:00:17Z) - SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation [87.18373801829314]
In-context segmentationは、"in-context example"と呼ばれるいくつかのラベル付きサンプルイメージを使用して、新しいイメージをセグメント化することを目的としている。
単一ビジョン基盤モデル(VFM)に基づくエンドツーエンドのセグメンテーション・イン・コンテクストフレームワークSEGICを提案する。
SEGICは、ワンショットセグメンテーションベンチマークで最先端のパフォーマンスをもたらす、単純だが効果的なアプローチである。
論文 参考訳(メタデータ) (2023-11-24T18:59:42Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。