論文の概要: Temporal-Guided Visual Foundation Models for Event-Based Vision
- arxiv url: http://arxiv.org/abs/2511.06238v1
- Date: Sun, 09 Nov 2025 05:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.831789
- Title: Temporal-Guided Visual Foundation Models for Event-Based Vision
- Title(参考訳): イベントベースビジョンのためのテンポラルガイド型ビジュアルファウンデーションモデル
- Authors: Ruihao Xia, Junhong Cai, Luziwei Leng, Liuyi Wang, Chengju Liu, Ran Cheng, Yang Tang, Pan Zhou,
- Abstract要約: イベントカメラは、挑戦的な環境でのビジョンタスクにユニークなアドバンテージを提供する。
画像データに基づいて事前訓練されたモダンなVisual Foundation Modelを活用する可能性については、イベントベースのビジョンでは未検討のままである。
我々は、Visual Foundation Modelsと時間的コンテキスト融合を統合する新しいフレームワークであるTGVFM(TemporalGuided-FM)を提案する。
- 参考スコア(独自算出の注目度): 40.997738547677066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras offer unique advantages for vision tasks in challenging environments, yet processing asynchronous event streams remains an open challenge. While existing methods rely on specialized architectures or resource-intensive training, the potential of leveraging modern Visual Foundation Models (VFMs) pretrained on image data remains under-explored for event-based vision. To address this, we propose Temporal-Guided VFM (TGVFM), a novel framework that integrates VFMs with our temporal context fusion block seamlessly to bridge this gap. Our temporal block introduces three key components: (1) Long-Range Temporal Attention to model global temporal dependencies, (2) Dual Spatiotemporal Attention for multi-scale frame correlation, and (3) Deep Feature Guidance Mechanism to fuse semantic-temporal features. By retraining event-to-video models on real-world data and leveraging transformer-based VFMs, TGVFM preserves spatiotemporal dynamics while harnessing pretrained representations. Experiments demonstrate SoTA performance across semantic segmentation, depth estimation, and object detection, with improvements of 16%, 21%, and 16% over existing methods, respectively. Overall, this work unlocks the cross-modality potential of image-based VFMs for event-based vision with temporal reasoning. Code is available at https://github.com/XiaRho/TGVFM.
- Abstract(参考訳): イベントカメラは、挑戦的な環境でのビジョンタスクにユニークなアドバンテージを提供するが、非同期イベントストリームの処理は依然としてオープンな課題である。
既存の手法は特別なアーキテクチャやリソース集約的なトレーニングに頼っているが、画像データに基づいて事前訓練された現代のVisual Foundation Models(VFM)を活用する可能性は、イベントベースのビジョンでは未探索のままである。
そこで本稿では,VFMと時間的コンテキスト融合ブロックをシームレスに統合し,このギャップを埋める新しいフレームワークであるTGVFMを提案する。
時間的ブロックは,(1)大域的時間的依存をモデル化するための長期的時間的注意,(2)多スケールフレーム相関のための二重時空間意識,(3)意味的時間的特徴を融合するための深部特徴誘導機構の3つの重要な要素を導入している。
TGVFMは、実世界のデータに基づいてイベント・ツー・ビデオモデルを再トレーニングし、トランスフォーマーベースのVFMを活用することで、事前訓練された表現を利用しながら時空間ダイナミクスを保ちます。
実験では、セマンティックセグメンテーション、深さ推定、オブジェクト検出にまたがってSoTAの性能を実証し、既存の手法よりも16%、21%、そして16%改善した。
全体として、この研究は、時間的推論を伴うイベントベースのビジョンのための画像ベースのVFMのモダリティ間ポテンシャルを解放する。
コードはhttps://github.com/XiaRho/TGVFMで入手できる。
関連論文リスト
- VisionTS++: Cross-Modal Time Series Foundation Model with Continual Pre-trained Vision Backbones [35.2847156993469]
VisonTS++は、大規模時系列上でのビジョンモデルの継続的な事前トレーニングに基づくTSFMである。
提案手法は,視覚モデルに基づくフィルタリング,色付き多変量変換,マルチクアンタイル予測という3つの重要なイノベーションを導入している。
実験により、VisionTS++は分布内および分布外予測の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-08-06T12:17:09Z) - DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting [12.591771385493509]
汎用ロバストネス・時間予測のためのビジョン・ファンデーション・モデル(VFM)を体系的に再プログラミングするフレームワークであるtextST-VFMを提案する。
このフレームワークは、生の入力と補助的なSTフローを統合し、フローは動的キューとして解釈可能な軽量の時間差信号を符号化する。
Emphpre-VFMリプログラミングでは、Temporal-Aware Tokenを使用して、両方のブランチをVFM互換の機能空間に整列させる。
emphpost-VFMリプログラミングでは、分岐間の動的相互作用を可能にするバイラテラルクロスプロンプトコーディネートモジュールが導入されている。
論文 参考訳(メタデータ) (2025-07-14T08:33:34Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Temporal Residual Guided Diffusion Framework for Event-Driven Video Reconstruction [23.493813870675197]
イベントベースのビデオ再構成は、ハイダイナミックレンジや高速モーションキャプチャ機能など、そのアドバンテージから注目を集めている。
現在の方法では、連続したイベントフローからの時間情報の抽出が優先され、シーン内の低周波テクスチャの特徴に過度に強調される。
本稿では,時間的・周波数的イベント前処理を効果的に活用する新しい手法である時間的残留ガイド拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-15T11:48:57Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。