論文の概要: Bidirectional Cross-Modal Prompting for Event-Frame Asymmetric Stereo
- arxiv url: http://arxiv.org/abs/2604.15312v1
- Date: Thu, 16 Apr 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.053185
- Title: Bidirectional Cross-Modal Prompting for Event-Frame Asymmetric Stereo
- Title(参考訳): イベントフレーム非対称ステレオのための双方向クロスモーダルプロンプト
- Authors: Ninghui Xu, Fabio Tosi, Lihui Wang, Jiawei Han, Luca Bartolomei, Zhiting Yao, Matteo Poggi, Stefano Mattoccia,
- Abstract要約: イベントカメラは、そのような制限を伴わない高ダイナミックレンジの代替視覚表現を提供する。
本稿では, Bi-CMPStereoについて紹介する。
提案手法は,対象の標準空間内のステレオ表現を微調整し,各モダリティをイベント領域とフレーム領域の両方に投影することにより相補表現を統合する。
- 参考スコア(独自算出の注目度): 54.58078274676216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional frame-based cameras capture rich contextual information but suffer from limited temporal resolution and motion blur in dynamic scenes. Event cameras offer an alternative visual representation with higher dynamic range free from such limitations. The complementary characteristics of the two modalities make event-frame asymmetric stereo promising for reliable 3D perception under fast motion and challenging illumination. However, the modality gap often leads to marginalization of domain-specific cues essential for cross-modal stereo matching. In this paper, we introduce Bi-CMPStereo, a novel bidirectional cross-modal prompting framework that fully exploits semantic and structural features from both domains for robust matching. Our approach learns finely aligned stereo representations within a target canonical space and integrates complementary representations by projecting each modality into both event and frame domains. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art methods in accuracy and generalization.
- Abstract(参考訳): 従来のフレームベースのカメラは、リッチなコンテキスト情報をキャプチャするが、動的なシーンでは時間分解能や動きのぼやけに悩まされる。
イベントカメラは、そのような制限から解放された高ダイナミックレンジの代替視覚表現を提供する。
2つのモードの相補的な特性により、イベントフレームの非対称ステレオは、高速な動きと挑戦的な照明下での信頼性の高い3次元知覚に期待できる。
しかし、モダリティギャップは、しばしばクロスモーダルステレオマッチングに不可欠なドメイン固有キューの余分化につながる。
本稿では,両ドメインのセマンティックな特徴と構造的特徴を完全に活用し,ロバストなマッチングを実現する,双方向のクロスモーダルプロンプトフレームワークであるBi-CMPStereoを紹介する。
提案手法は,対象の標準空間内のステレオ表現を微調整し,各モダリティをイベント領域とフレーム領域の両方に投影することにより相補表現を統合する。
大規模な実験により,我々の手法は精度と一般化において最先端の手法を著しく上回っていることが示された。
関連論文リスト
- DCDM: Divide-and-Conquer Diffusion Models for Consistency-Preserving Video Generation [77.89090846233906]
我々はDivide-and-Conquer Diffusion Model (DCDM)と呼ばれるシステムレベルのフレームワークを提案する。
DCDMは、統合されたビデオ生成バックボーンを共有しながら、ビデオ一貫性モデリングを3つの専用コンポーネントに分解する。
我々は,AAAI'26におけるCVMコンペティションのテストセットにおけるフレームワークの検証を行い,提案手法がこれらの課題に効果的に対処できることを実証した。
論文 参考訳(メタデータ) (2026-02-14T07:02:36Z) - RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentangled Representation [25.898452981956364]
イベントカメラはスパースだが時間的に高解像度のモーション情報を提供する。
ダイナミックビジョンセンサー(DVS)の閾値を上げることでノイズを低減できるが、これは必然的にイベントの過度な報告を引き起こす。
本稿では,モダリティ特異的な不整合表現を備えたロバストイベント誘導型デブロワーリングネットワークを提案する。
論文 参考訳(メタデータ) (2025-09-06T01:07:08Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching [17.344430840048094]
最近の学習に基づく手法では, 一つのステレオペア上での最適性能が優先され, 時間的矛盾が生じている。
本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。
既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。
論文 参考訳(メタデータ) (2024-03-16T01:38:28Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Video Frame Interpolation with Stereo Event and Intensity Camera [40.07341828127157]
高品質な中間フレームを生成するための新しいステレオイベントベースVFIネットワーク(SE-VFI-Net)を提案する。
我々は,正確な光学的流れと不均一性推定を実現するために,融合した特徴を利用する。
提案するSEVFI-Netは最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-17T04:02:00Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Self-Supervised Intensity-Event Stereo Matching [24.851819610561517]
イベントカメラはバイオインスパイアされた新しい視覚センサーで、マイクロ秒の精度でピクセルレベルの強度変化を出力する。
イベントカメラは、高品質の強度とイベントを同時に得ることができないため、計算画像タスクに直接適用することはできない。
本稿では,スタンドアロンのイベントカメラと近代的な強度カメラを接続して,両センサを応用することを目的としている。
論文 参考訳(メタデータ) (2022-11-01T14:52:25Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。