論文の概要: REALM: An RGB and Event Aligned Latent Manifold for Cross-Modal Perception
- arxiv url: http://arxiv.org/abs/2605.00271v1
- Date: Thu, 30 Apr 2026 22:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.779433
- Title: REALM: An RGB and Event Aligned Latent Manifold for Cross-Modal Perception
- Title(参考訳): REALM: クロスモーダル・パーセプションのためのRGBおよびイベント指向ラテント・マニフォールド
- Authors: Vincenzo Polizzi, David B. Lindell, Jonathan Kelly,
- Abstract要約: イベントカメラは、高時間分解能、低レイテンシ、極端な照明に対する堅牢性など、標準のフレームベースのセンサーに対して、ユニークなアドバンテージを提供する。
本稿では,RGB と Event Aligned Latent Manifold を学習するクロスモーダルフレームワーク REALM を提案する。
ワイドベースライン機能マッチングにおける最先端性能を実証し、特殊アーキテクチャを著しく上回る性能を示す。
- 参考スコア(独自算出の注目度): 20.862898938880306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras provide several unique advantages over standard frame-based sensors, including high temporal resolution, low latency, and robustness to extreme lighting. However, existing learning-based approaches for event processing are typically confined to narrow, task-specific silos and lack the ability to generalize across modalities. We address this gap with REALM, a cross-modal framework that learns an RGB and Event Aligned Latent Manifold by projecting event representations into the pretrained latent space of RGB foundation models. Instead of task-specific training, we leverage low-rank adaptation (LoRA) to bridge the modality gap, effectively unlocking the geometric and semantic priors of frozen RGB backbones for asynchronous event streams. We demonstrate that REALM effectively maps events into the ViT-based foundation latent space. Our method allows us to perform downstream tasks like depth estimation and semantic segmentation by simply transferring linear heads trained on the RGB teacher. Most significantly, REALM enables the direct, zero-shot application of complex, frozen image-trained decoders, such as MASt3R, to raw event data. We demonstrate state-of-the-art performance in wide-baseline feature matching, significantly outperforming specialized architectures. Code and models are available upon acceptance.
- Abstract(参考訳): イベントカメラは、高時間分解能、低レイテンシ、極端な照明に対する堅牢性など、標準フレームベースのセンサーに対して、いくつかのユニークな利点を提供する。
しかし、既存の学習に基づくイベント処理のアプローチは、通常は狭くタスク固有のサイロに限られており、モダリティをまたいで一般化する能力が欠如している。
イベント表現をRGBファウンデーションモデルのトレーニング済み潜在空間に投影することにより、RGBとイベントアラインドラテントマニフォールドを学習するクロスモーダルフレームワークであるREALMとのギャップに対処する。
タスク固有のトレーニングの代わりに、ローランク適応(LoRA)を活用してモダリティギャップをブリッジし、非同期イベントストリーム用の冷凍RGBバックボーンの幾何学的および意味論的先行を効果的に解放する。
我々は、REALMがイベントをViTベースの基盤潜在空間に効果的にマッピングすることを実証した。
提案手法では,RGB教師に訓練された線形ヘッドを単純に転送することで,深度推定やセマンティックセグメンテーションなどの下流タスクを実行できる。
最も顕著なのは、REALMにより、MASt3Rのような複雑な凍結されたイメージトレーニングされたデコーダを生のイベントデータに直接、ゼロショットで適用することができることである。
ワイドベースライン機能マッチングにおける最先端性能を実証し、特殊アーキテクチャを著しく上回る性能を示す。
コードとモデルは受け入れられる。
関連論文リスト
- Spatial Orthogonal Refinement for Robust RGB-Event Visual Object Tracking [8.019596736149834]
空間直交微細化(SOR)に基づくロバストなRGBイベント追跡のためのフレームワークであるSOR-Trackを提案する。
大規模なFE108ベンチマークの実験は、SOR-Trackが既存のフュージョンベースのトラッカーを一貫して上回っていることを示している。
その単純さにもかかわらず、提案手法はマルチモーダルな特徴アライメントとテクスチャの整合に対する原理的かつ物理的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-03-29T23:54:31Z) - PEPR: Privileged Event-based Predictive Regularization for Domain Generalization [19.185122873391517]
本稿では,厳密な単一モダリティRGBモデルをトレーニングするための特権情報(LUPI)パラダイムを用いた学習環境下でのクロスモーダルフレームワークを提案する。
イベントカメラを特権情報のソースとして利用し、トレーニング中にのみ利用可能です。
RGBエンコーダをPEPRでトレーニングし、イベントベースの潜伏特性を予測し、意味豊かさを犠牲にすることなくロバスト性を蒸留する。
論文 参考訳(メタデータ) (2026-02-04T14:10:36Z) - Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking [51.31378940976401]
既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
論文 参考訳(メタデータ) (2026-01-03T01:10:17Z) - Leveraging RGB Images for Pre-Training of Event-Based Hand Pose Estimation [64.8814078041756]
RPEPはラベル付きRGB画像と未ラベルのイベントデータを用いたイベントベースの3次元ポーズ推定のための最初の事前学習手法である。
EvRealHandsの24%の改善を達成し、実イベントデータにおける最先端の手法を著しく上回る結果となった。
論文 参考訳(メタデータ) (2025-09-21T07:07:49Z) - VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - Self-Aligning Depth-regularized Radiance Fields for Asynchronous RGB-D Sequences [12.799443250845224]
タイムスタンプを$rm SE(3)$要素にマッピングする暗黙のネットワークである。
提案アルゴリズムは,(1)時間的関数フィッティング,(2)放射場ブートストレッピング,(3)結合ポーズ誤差補償,および放射場改良の3段階からなる。
また,ドローンによってキャプチャされた実世界の非同期RGB-Dシーケンスに対して,定性的に改善された結果を示す。
論文 参考訳(メタデータ) (2022-11-14T15:37:27Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。