論文の概要: SAM4D: Segment Anything in Camera and LiDAR Streams
- arxiv url: http://arxiv.org/abs/2506.21547v1
- Date: Thu, 26 Jun 2025 17:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.243482
- Title: SAM4D: Segment Anything in Camera and LiDAR Streams
- Title(参考訳): SAM4D:カメラとLiDARストリームのセグメンテーション
- Authors: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li,
- Abstract要約: カメラとLiDARストリーム間での迅速なセグメンテーションのためのマルチモーダル・時間的基礎モデルSAM4Dを提案する。
UMPEは、カメラとLiDAR機能を共有3D空間で整列するために導入され、シームレスなクロスモーダルプロンプトを可能にする。
時間的整合性を高めるためにエゴモーション補償を利用する動き認識型クロスモーダルアテンションメモリを提案する。
- 参考スコア(独自算出の注目度): 20.769019263142056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SAM4D, a multi-modal and temporal foundation model designed for promptable segmentation across camera and LiDAR streams. Unified Multi-modal Positional Encoding (UMPE) is introduced to align camera and LiDAR features in a shared 3D space, enabling seamless cross-modal prompting and interaction. Additionally, we propose Motion-aware Cross-modal Memory Attention (MCMA), which leverages ego-motion compensation to enhance temporal consistency and long-horizon feature retrieval, ensuring robust segmentation across dynamically changing autonomous driving scenes. To avoid annotation bottlenecks, we develop a multi-modal automated data engine that synergizes VFM-driven video masklets, spatiotemporal 4D reconstruction, and cross-modal masklet fusion. This framework generates camera-LiDAR aligned pseudo-labels at a speed orders of magnitude faster than human annotation while preserving VFM-derived semantic fidelity in point cloud representations. We conduct extensive experiments on the constructed Waymo-4DSeg, which demonstrate the powerful cross-modal segmentation ability and great potential in data annotation of proposed SAM4D.
- Abstract(参考訳): 本稿では,カメラとLiDARストリーム間の迅速なセグメンテーションを目的とした多モード・時間的基礎モデルSAM4Dを提案する。
Unified Multi-modal Positional Encoding (UMPE) は、カメラとLiDARの機能を共有3D空間にアライメントするために導入され、シームレスなクロスモーダルプロンプトとインタラクションを可能にする。
さらに,エゴモーション補正を活用して時間的一貫性と長期特徴検索を向上し,動的に変化する自律運転シーン間の堅牢なセグメンテーションを確保する動き認識型クロスモーダルメモリアテンション(MCMA)を提案する。
アノテーションのボトルネックを回避するため,VFM駆動型ビデオマスクレット,時空間4D再構成,クロスモーダルマスクレット融合を相乗化するマルチモーダル自動データエンジンを開発した。
このフレームワークは、VFMから派生した意味的忠実さをポイントクラウド表現で保存しながら、人間のアノテーションよりも桁違いの速度でカメラ-LiDAR対応の擬似ラベルを生成する。
提案するSAM4Dのデータアノテーションにおける強力なクロスモーダルセグメンテーション能力と大きな可能性を示すWaymo-4DSegに関する広範な実験を行った。
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [73.25506085339252]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-01-26T04:24:07Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文 参考訳(メタデータ) (2024-12-09T18:58:03Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for
Camera-based 3D Object Detection [17.22491199725569]
VIC3Dは、車両と交通インフラの両方から多視点カメラを利用する。
我々は、新しい3Dオブジェクト検出フレームワーク、Vines-Infrastructure Multi-view Intermediate fusion (VIMI)を提案する。
VIMIは15.61%のAP_3Dと21.44%のAP_BEVを新しいVIC3DデータセットであるDAIR-V2X-Cで達成している。
論文 参考訳(メタデータ) (2023-03-20T09:56:17Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。