論文の概要: EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation
- arxiv url: http://arxiv.org/abs/2603.09385v1
- Date: Tue, 10 Mar 2026 08:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.190385
- Title: EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation
- Title(参考訳): EventVGGT: 一貫性のあるイベントベース深さ推定のためのクロスモーダル蒸留の探索
- Authors: Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong,
- Abstract要約: EventVGGTは、イベントストリームをコヒーレントなビデオシーケンスとして明示的にモデル化する、新しいフレームワークである。
既存の手法を一貫して上回り、絶対平均深度を30m以上53%以上下げる。
また、未確認のDENSEとMVSECデータセットに対して、堅牢なゼロショットエラーを示す。
- 参考スコア(独自算出の注目度): 24.595306617729012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras offer superior sensitivity to high-speed motion and extreme lighting, making event-based monocular depth estimation a promising approach for robust 3D perception in challenging conditions. However, progress is severely hindered by the scarcity of dense depth annotations. While recent annotation-free approaches mitigate this by distilling knowledge from Vision Foundation Models (VFMs), a critical limitation persists: they process event streams as independent frames. By neglecting the inherent temporal continuity of event data, these methods fail to leverage the rich temporal priors encoded in VFMs, ultimately yielding temporally inconsistent and less accurate depth predictions. To address this, we introduce EventVGGT, a novel framework that explicitly models the event stream as a coherent video sequence. To the best of our knowledge, we are the first to distill spatio-temporal and multi-view geometric priors from the Visual Geometry Grounded Transformer (VGGT) into the event domain. We achieve this via a comprehensive tri-level distillation strategy: (i) Cross-Modal Feature Mixture (CMFM) bridges the modality gap at the output level by fusing RGB and event features to generate auxiliary depth predictions; (ii) Spatio-Temporal Feature Distillation (STFD) distills VGGT's powerful spatio-temporal representations at the feature level; and (iii) Temporal Consistency Distillation (TCD) enforces cross-frame coherence at the temporal level by aligning inter-frame depth changes. Extensive experiments demonstrate that EventVGGT consistently outperforms existing methods -- reducing the absolute mean depth error at 30m by over 53\% on EventScape (from 2.30 to 1.06) -- while exhibiting robust zero-shot generalization on the unseen DENSE and MVSEC datasets.
- Abstract(参考訳): イベントカメラは、高速な動きや極端な照明に優れた感度を提供し、イベントベースの単眼深度推定は、困難な状況下での堅牢な3D知覚に有望なアプローチである。
しかし、深度アノテーションの不足により、進行が著しく妨げられている。
近年のアノテーションのないアプローチは、Vision Foundation Models (VFM) から知識を抽出することでこれを緩和するが、重要な制限は持続する:イベントストリームを独立したフレームとして処理する。
事象データの本質的にの時間的連続性を無視して、これらの手法はVFMに符号化された豊富な時間的先行性を活用することができず、最終的に時間的に矛盾し、精度の低い深度予測をもたらす。
これを解決するために、イベントストリームをコヒーレントなビデオシーケンスとして明示的にモデル化する新しいフレームワークであるEventVGGTを紹介する。
我々の知る限り、我々は視覚幾何学接地変換器(VGGT)から時空間および多視点幾何学的先駆体を初めてイベントドメインに蒸留した。
これを総合的な三段階蒸留戦略により達成する。
(i)CMFMは、RGBとイベント特徴を融合させて出力レベルのモダリティギャップを橋渡しし、補助深度予測を生成する。
(二)時空間蒸留(STFD)は、VGGTの時空間表現を特徴レベルで蒸留する。
三 時間的一貫性蒸留(TCD)は、フレーム間の深さ変化を整合させることにより、時間レベルでのクロスフレームコヒーレンスを強制する。
大規模な実験では、EventVGGTは既存のメソッドを一貫して上回り、EventScape(2.30から1.06まで)で絶対平均深度誤差を53倍以上削減し、未確認のDENSEとMVSECデータセットで堅牢なゼロショットの一般化を示している。
関連論文リスト
- Scaling Dense Event-Stream Pretraining from Visual Foundation Models [112.44243079477137]
我々は,視覚基礎モデル(VFM)を蒸留して,イベント表現の境界を大規模に推し進める,新しい自己教師型事前学習手法をローンチする。
我々は、クロスモーダルアライメントを増幅するために、広範に同期された画像イベントコレクションをキュレートする。
VFMによって提供されるセマンティックな構造にアライメントの目的を拡張し、より広い受容領域とより強い監督力を示す。
論文 参考訳(メタデータ) (2026-03-04T12:06:09Z) - Temporal-Guided Visual Foundation Models for Event-Based Vision [40.997738547677066]
イベントカメラは、挑戦的な環境でのビジョンタスクにユニークなアドバンテージを提供する。
画像データに基づいて事前訓練されたモダンなVisual Foundation Modelを活用する可能性については、イベントベースのビジョンでは未検討のままである。
我々は、Visual Foundation Modelsと時間的コンテキスト融合を統合する新しいフレームワークであるTGVFM(TemporalGuided-FM)を提案する。
論文 参考訳(メタデータ) (2025-11-09T05:45:25Z) - Depth AnyEvent: A Cross-Modal Distillation Paradigm for Event-Based Monocular Depth Estimation [47.90167568304715]
イベントカメラは、スパースで高時間解像度の視覚情報をキャプチャする。
深層深度アノテーションによる大規模データセットの欠如は、イベントデータから学習に基づく単眼深度推定を妨げている。
ビジョンファウンデーションモデル(VFM)を利用した高密度プロキシラベル生成のためのクロスモーダル蒸留パラダイムを提案する。
我々の戦略は、RGBフレームに空間的に整合したイベントストリーム、利用可能なオフザシェルフの簡単なセットアップ、大規模VFMの堅牢性を活用することが必要である。
論文 参考訳(メタデータ) (2025-09-18T17:59:51Z) - HyPCV-Former: Hyperbolic Spatio-Temporal Transformer for 3D Point Cloud Video Anomaly Detection [1.475698751142657]
HyV-Formerは、複数の異常カテゴリにわたる最先端の異常検出を実現し、TIMoデータセットは7%改善され、DADデータセットは5.6%向上した。
論文 参考訳(メタデータ) (2025-08-01T09:50:20Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Temporal Residual Guided Diffusion Framework for Event-Driven Video Reconstruction [23.493813870675197]
イベントベースのビデオ再構成は、ハイダイナミックレンジや高速モーションキャプチャ機能など、そのアドバンテージから注目を集めている。
現在の方法では、連続したイベントフローからの時間情報の抽出が優先され、シーン内の低周波テクスチャの特徴に過度に強調される。
本稿では,時間的・周波数的イベント前処理を効果的に活用する新しい手法である時間的残留ガイド拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-15T11:48:57Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。