論文の概要: $x^2$-Fusion: Cross-Modality and Cross-Dimension Flow Estimation in Event Edge Space
- arxiv url: http://arxiv.org/abs/2603.16671v1
- Date: Tue, 17 Mar 2026 15:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.3791
- Title: $x^2$-Fusion: Cross-Modality and Cross-Dimension Flow Estimation in Event Edge Space
- Title(参考訳): $x^2$-Fusion:イベントエッジ空間におけるクロスモダリティとクロスディメンジョンフローの推定
- Authors: Ruishan Guo, Ciyu Ruan, Haoyang Wang, Zihang Gong, Jingao Xu, Xinlei Chen,
- Abstract要約: 動的シーン理解には高密度な2次元光学的流れと3次元シーンフローの推定が不可欠である。
最近の研究は、画像、LiDAR、イベントデータを組み合わせて2Dと3Dの動きを共同で予測するが、ほとんどのアプローチは別個の異種特徴空間で動作する。
表現統一としてマルチモーダル融合を再構成した$x2$-Fusionを導入する。
- 参考スコア(独自算出の注目度): 22.76310468233763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating dense 2D optical flow and 3D scene flow is essential for dynamic scene understanding. Recent work combines images, LiDAR, and event data to jointly predict 2D and 3D motion, yet most approaches operate in separate heterogeneous feature spaces. Without a shared latent space that all modalities can align to, these systems rely on multiple modality-specific blocks, leaving cross-sensor mismatches unresolved and making fusion unnecessarily complex.Event cameras naturally provide a spatiotemporal edge signal, which we can treat as an intrinsic edge field to anchor a unified latent representation, termed the Event Edge Space. Building on this idea, we introduce $x^2$-Fusion, which reframes multimodal fusion as representation unification: event-derived spatiotemporal edges define an edge-centric homogeneous space, and image and LiDAR features are explicitly aligned in this shared representation.Within this space, we perform reliability-aware adaptive fusion to estimate modality reliability and emphasize stable cues under degradation. We further employ cross-dimension contrast learning to tightly couple 2D optical flow with 3D scene flow. Extensive experiments on both synthetic and real benchmarks show that $x^2$-Fusion achieves state-of-the-art accuracy under standard conditions and delivers substantial improvements in challenging scenarios.
- Abstract(参考訳): 動的シーン理解には高密度な2次元光学的流れと3次元シーンフローの推定が不可欠である。
最近の研究は、画像、LiDAR、イベントデータを組み合わせて2Dと3Dの動きを共同で予測するが、ほとんどのアプローチは別個の異種特徴空間で動作する。
すべてのモダリティが一致できる共有潜在空間がなければ、これらのシステムは複数のモダリティ固有のブロックに依存し、クロスセンサーのミスマッチを未解決のまま残し、融合を不要に複雑にする。イベントカメラは自然に時空間信号を提供し、本質的にエッジフィールドとして扱い、イベントエッジ空間と呼ばれる統一潜在表現をアンロックする。
イベント由来の時空間は、エッジ中心の同次空間を定義し、画像とLiDARの機能は、この共有表現に明示的に整合し、この空間では、モダリティの信頼性を推定し、劣化中の安定なキューを強調する。
さらに,2次元の光学的流れと3次元のシーンフローを密結合させるために,クロス次元コントラスト学習を用いる。
総合的なベンチマークと実ベンチマークの両方において、$x^2$-Fusionは標準的な条件下で最先端の精度を達成し、挑戦的なシナリオにおいて大幅な改善をもたらすことを示す。
関連論文リスト
- OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。
OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-10-21T03:24:12Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - A Unified Diffusion Framework for Scene-aware Human Motion Estimation from Sparse Signals [47.72778485845676]
シーンによって提供されるリッチなコンテキスト情報を組み合わせて、スパース観測から全体の動き追跡に役立てる新しいフレームワークを提案する。
$textS2$Fusionは、まず、周期的オートエンコーダを介してスパース信号に存在する時空間関係を抽出する。
$textS2$Fusionは条件拡散を利用してシーン幾何学とスパース追跡信号を融合し、フルボディのシーン認識モーションを生成する。
論文 参考訳(メタデータ) (2024-04-07T09:15:45Z) - RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical
Flow and Scene Flow Estimation [43.358140897849616]
本稿では,RGB画像,ポイント雲,イベントを多段階多モード融合モデルであるRPEFlowに組み込む。
合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。
論文 参考訳(メタデータ) (2023-09-26T17:23:55Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。