論文の概要: Match-Any-Events: Zero-Shot Motion-Robust Feature Matching Across Wide Baselines for Event Cameras
- arxiv url: http://arxiv.org/abs/2604.18744v1
- Date: Mon, 20 Apr 2026 18:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.432052
- Title: Match-Any-Events: Zero-Shot Motion-Robust Feature Matching Across Wide Baselines for Event Cameras
- Title(参考訳): Match-Any-Events:イベントカメラの広いベースラインにマッチするゼロショットモーション・ロバスト機能
- Authors: Ruijun Zhang, Hang Su, Kostas Daniilidis, Ziyun Wang,
- Abstract要約: ゼロショット方式でクロスデータセットワイドベースライン対応を実現する最初のイベントマッチングモデルを提案する。
本稿では,イベントストリームからマルチタイムな特徴を学習する,モーションロバストかつ計算効率のよいアテンションバックボーンを提案する。
我々のフレームワークは、以前の最高のイベント特徴マッチングメソッドよりも37.7%改善されている。
- 参考スコア(独自算出の注目度): 40.06828305096689
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Event cameras have recently shown promising capabilities in instantaneous motion estimation due to their robustness to low light and fast motions. However, computing wide-baseline correspondence between two arbitrary views remains a significant challenge, since event appearance changes substantially with motion, and learning-based approaches are constrained by both scalability and limited wide-baseline supervision. We therefore introduce the first event matching model that achieves cross-dataset wide-baseline correspondence in a zero-shot manner: a single model trained once is deployed on unseen datasets without any target-domain fine-tuning or adaptation. To enable this capability, we introduce a motion-robust and computationally efficient attention backbone that learns multi-timescale features from event streams, augmented with sparsity-aware event token selection, making large-scale training on diverse wide-baseline supervision computationally feasible. To provide the supervision needed for wide-baseline generalization, we develop a robust event motion synthesis framework to generate large-scale event-matching datasets with augmented viewpoints, modalities, and motions. Extensive experiments across multiple benchmarks show that our framework achieves a 37.7% improvement over the previous best event feature matching methods. Code and data are available at: https://github.com/spikelab-jhu/Match-Any-Events.
- Abstract(参考訳): イベントカメラは近年,低照度かつ高速な動きに対する頑健さから,瞬時動作推定の有望な能力を示した。
しかし、イベントの出現は動きによって大きく変化し、学習ベースのアプローチはスケーラビリティと制限された広義の監視の両方によって制約されるため、任意の2つのビュー間のワイドベースライン対応の計算は依然として大きな課題である。
したがって、ゼロショット方式でクロスデータセットワイドベースライン対応を実現する最初のイベントマッチングモデルを導入する: 一度訓練された1つのモデルは、ターゲットドメインの微調整や適応なしに、未確認データセットにデプロイされる。
この機能を実現するために,イベントストリームからマルチタイムな特徴を学習し,空間性を考慮したイベントトークン選択を付加し,多種多様な広義の監視を行う大規模トレーニングを実現する,モーションロバストかつ計算効率のよいアテンションバックボーンを導入する。
広義の一般化に必要な監視を行うため,大規模イベントマッチングデータセットを拡張的な視点,モダリティ,動きで生成する,堅牢なイベントモーション合成フレームワークを開発した。
複数のベンチマークにわたる大規模な実験により、我々のフレームワークは以前の最高のイベント特徴マッチング方法よりも37.7%改善していることがわかった。
コードとデータは、https://github.com/spikelab-jhu/Match-Any-Events.comで入手できる。
関連論文リスト
- E-TIDE: Fast, Structure-Preserving Motion Forecasting from Event Sequences [2.6812215263618473]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームとして視覚情報をキャプチャし、スパースで時間的に正確なデータを生成する。
イベントテンソル予測のための軽量でエンドツーエンドのトレーニング可能なアーキテクチャであるE-TIDEを導入する。
論文 参考訳(メタデータ) (2026-03-29T16:34:12Z) - Event-based Facial Keypoint Alignment via Cross-Modal Fusion Attention and Self-Supervised Multi-Event Representation Learning [16.170645576584487]
イベントカメラは、困難な条件下での顔のキーポイントアライメントにユニークな利点を提供する。
本稿では、イベントベースの顔キーポイントアライメントのための、相互統合注意(CMFA)と自己教師型マルチイベント表現学習(SSMER)に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:00:50Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。
現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文 参考訳(メタデータ) (2024-04-29T08:50:27Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。