論文の概要: Exploring The Missing Semantics In Event Modality
- arxiv url: http://arxiv.org/abs/2510.17347v1
- Date: Mon, 20 Oct 2025 09:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.387501
- Title: Exploring The Missing Semantics In Event Modality
- Title(参考訳): イベントモダリティにおける欠落したセマンティクスの探索
- Authors: Jingqian Wu, Shengpeng Xu, Yunbo Jia, Edmund Y. Lam,
- Abstract要約: イベントカメラには、低レイテンシ、高ダイナミックレンジ、効率的なモーションキャプチャなど、明確なメリットがある。
イベント・ツー・ビデオ・リコンストラクション(E2V)は、特に意味情報の再構築と復元が困難なままである。
本稿では,イベントモダリティにおける視覚的意味知識の欠如を探索するE2VフレームワークであるSemantic-E2VIDを提案する。
- 参考スコア(独自算出の注目度): 15.06471990384093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras offer distinct advantages such as low latency, high dynamic range, and efficient motion capture. However, event-to-video reconstruction (E2V), a fundamental event-based vision task, remains challenging, particularly for reconstructing and recovering semantic information. This is primarily due to the nature of the event camera, as it only captures intensity changes, ignoring static objects and backgrounds, resulting in a lack of semantic information in captured event modality. Further, semantic information plays a crucial role in video and frame reconstruction, yet is often overlooked by existing E2V approaches. To bridge this gap, we propose Semantic-E2VID, an E2V framework that explores the missing visual semantic knowledge in event modality and leverages it to enhance event-to-video reconstruction. Specifically, Semantic-E2VID introduces a cross-modal feature alignment (CFA) module to transfer the robust visual semantics from a frame-based vision foundation model, the Segment Anything Model (SAM), to the event encoder, while aligning the high-level features from distinct modalities. To better utilize the learned semantic feature, we further propose a semantic-aware feature fusion (SFF) block to integrate learned semantics in frame modality to form event representations with rich semantics that can be decoded by the event decoder. Further, to facilitate the reconstruction of semantic information, we propose a novel Semantic Perceptual E2V Supervision that helps the model to reconstruct semantic details by leveraging SAM-generated categorical labels. Extensive experiments demonstrate that Semantic-E2VID significantly enhances frame quality, outperforming state-of-the-art E2V methods across multiple benchmarks. The sample code is included in the supplementary material.
- Abstract(参考訳): イベントカメラには、低レイテンシ、高ダイナミックレンジ、効率的なモーションキャプチャなど、明確なメリットがある。
しかし、イベント・トゥ・ビデオ・リコンストラクション(E2V)は基本的なイベントベースのビジョンタスクであり、特に意味情報の再構築と復元は困難である。
これは主にイベントカメラの性質によるもので、強度の変化のみをキャプチャし、静的なオブジェクトやバックグラウンドを無視し、キャプチャされたイベントのモダリティに意味情報が欠如する。
さらに、意味情報はビデオやフレーム再構築において重要な役割を果たすが、既存のE2Vアプローチでは見過ごされがちである。
このギャップを埋めるため,イベント・ツー・ビデオ・リコンストラクションを強化するために,イベントモダリティにおける視覚的セマンティック知識の欠如を探求するセマンティック・E2VIDを提案する。
具体的には、Semantic-E2VIDは、フレームベースの視覚基盤モデルであるSegment Anything Model(SAM)からイベントエンコーダへのロバストな視覚意味論を転送するクロスモーダル機能アライメント(CFA)モジュールを導入した。
学習したセマンティックな特徴をよりよく活用するために,学習したセマンティクスをフレームモードで統合し,イベントデコーダでデコード可能なリッチなセマンティクスでイベント表現を形成するためのセマンティクス対応機能融合(SFF)ブロックを提案する。
さらに,セマンティック・パーセプティカルE2Vスーパービジョンを提案し,SAM生成したカテゴリラベルを活用することでセマンティック・パーセプティカルE2Vスーパービジョンの再構築を支援する。
大規模な実験により、Semantic-E2VIDはフレーム品質を著しく向上し、複数のベンチマークで最先端のE2V法より優れていることが示された。
サンプルコードは補充材料に含まれる。
関連論文リスト
- SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。
本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。
SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文 参考訳(メタデータ) (2025-07-21T17:59:02Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - LaSe-E2V: Towards Language-guided Semantic-Aware Event-to-Video Reconstruction [8.163356555241322]
セマンティック・アウェアの高品質なE2V再構成を実現する新しいフレームワークであるLaSe-E2Vを提案する。
まずイベント誘導時空間アテンション(ESA)モジュールを提案する。
次に、時間的コヒーレンスを確保するためのイベント対応マスクロスと、空間的一貫性を高めるためのノイズ戦略を導入する。
論文 参考訳(メタデータ) (2024-07-08T01:40:32Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。