論文の概要: A Novel Vision Transformer for Camera-LiDAR Fusion based Traffic Object Segmentation
- arxiv url: http://arxiv.org/abs/2501.02858v1
- Date: Mon, 06 Jan 2025 09:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:04.376120
- Title: A Novel Vision Transformer for Camera-LiDAR Fusion based Traffic Object Segmentation
- Title(参考訳): カメラ・LiDARフュージョンを用いた交通物体分割のための新しい視覚変換器
- Authors: Toomas Tahves, Junyi Gu, Mauro Bellone, Raivo Sell,
- Abstract要約: トラヒックオブジェクトセグメンテーションのためのCamera-LiDAR Fusion Transformerモデルは、ビジョントランスを用いたカメラとLiDARデータの融合を利用する。
セグメンテーション機能を拡張して、さまざまな気象条件で、サイクリスト、交通標識、歩行者を含むさまざまな種類のオブジェクトに分類オプションを追加します。
- 参考スコア(独自算出の注目度): 0.16874375111244325
- License:
- Abstract: This paper presents Camera-LiDAR Fusion Transformer (CLFT) models for traffic object segmentation, which leverage the fusion of camera and LiDAR data using vision transformers. Building on the methodology of visual transformers that exploit the self-attention mechanism, we extend segmentation capabilities with additional classification options to a diverse class of objects including cyclists, traffic signs, and pedestrians across diverse weather conditions. Despite good performance, the models face challenges under adverse conditions which underscores the need for further optimization to enhance performance in darkness and rain. In summary, the CLFT models offer a compelling solution for autonomous driving perception, advancing the state-of-the-art in multimodal fusion and object segmentation, with ongoing efforts required to address existing limitations and fully harness their potential in practical deployments.
- Abstract(参考訳): 本稿では、視覚変換器を用いたカメラとLiDARデータの融合を利用した交通物体分割のためのカメラ-LiDAR融合変換器(CLFT)モデルを提案する。
自己注意機構を利用する視覚トランスフォーマーの方法論に基づいて,サイクリスト,交通標識,歩行者など,さまざまな種類の物体に分類オプションを追加してセグメンテーション機能を拡張した。
優れた性能にもかかわらず、モデルは悪条件下での課題に直面し、暗黒と雨のさらなる性能向上のためにさらなる最適化の必要性を浮き彫りにしている。
まとめると、CLFTモデルは自律運転知覚のための魅力的なソリューションを提供し、マルチモーダルフュージョンとオブジェクトセグメンテーションにおいて最先端の最先端を推し進める。
関連論文リスト
- MC-BEVRO: Multi-Camera Bird Eye View Road Occupancy Detection for Traffic Monitoring [23.396192711865147]
交通監視のための単一カメラの3次元認識は、閉塞性や視野の制限により大きな課題に直面している。
本稿では,複数の路面カメラを活用した新しいBird's-Eye-Viewロード占有検知フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-16T22:03:03Z) - An object detection approach for lane change and overtake detection from motion profiles [3.545178658731506]
本稿では,移動プロファイルに適用した新しい物体検出手法を用いて,オーバーテイクおよびレーン変更動作の同定を行う。
モデルをトレーニングし、テストするために、ヘテロジニアスなダシュカムビデオから得られたモーションプロファイル画像の内部データセットを作成しました。
標準のオブジェクト検出アプローチに加えて、CoordConvolutionレイヤを含めることで、モデルの性能がさらに向上することを示す。
論文 参考訳(メタデータ) (2025-02-06T17:36:35Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [59.55232046525733]
我々は,LDARポイントクラウドレンダリングをピクセルレベルの条件として利用する,制御可能なビデオ拡散モデルであるStreetCrafterを紹介する。
さらに、画素レベルのLiDAR条件を利用することで、ターゲットシーンに対して正確なピクセルレベルの編集を行うことができる。
我々のモデルは視点変化を柔軟に制御し、レンダリング領域を満たすためのビューを拡大する。
論文 参考訳(メタデータ) (2024-12-17T18:58:55Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - CLFT: Camera-LiDAR Fusion Transformer for Semantic Segmentation in Autonomous Driving [0.16874375111244325]
ビジョン・トランスフォーマー(Vision Transformer)は、コンピュータビジョンアプリケーションにマルチヘッドアテンション機構をうまく導入した新しいグラウンドブレーカーである。
自律運転に適用可能なセマンティックセグメンテーションのためのカメラ-LiDAR融合を実現するビジョントランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2024-04-27T06:18:23Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for
Camera-based 3D Object Detection [17.22491199725569]
VIC3Dは、車両と交通インフラの両方から多視点カメラを利用する。
我々は、新しい3Dオブジェクト検出フレームワーク、Vines-Infrastructure Multi-view Intermediate fusion (VIMI)を提案する。
VIMIは15.61%のAP_3Dと21.44%のAP_BEVを新しいVIC3DデータセットであるDAIR-V2X-Cで達成している。
論文 参考訳(メタデータ) (2023-03-20T09:56:17Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。