論文の概要: A Novel Vision Transformer for Camera-LiDAR Fusion based Traffic Object Segmentation
- arxiv url: http://arxiv.org/abs/2501.02858v1
- Date: Mon, 06 Jan 2025 09:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:04.376120
- Title: A Novel Vision Transformer for Camera-LiDAR Fusion based Traffic Object Segmentation
- Title(参考訳): カメラ・LiDARフュージョンを用いた交通物体分割のための新しい視覚変換器
- Authors: Toomas Tahves, Junyi Gu, Mauro Bellone, Raivo Sell,
- Abstract要約: トラヒックオブジェクトセグメンテーションのためのCamera-LiDAR Fusion Transformerモデルは、ビジョントランスを用いたカメラとLiDARデータの融合を利用する。
セグメンテーション機能を拡張して、さまざまな気象条件で、サイクリスト、交通標識、歩行者を含むさまざまな種類のオブジェクトに分類オプションを追加します。
- 参考スコア(独自算出の注目度): 0.16874375111244325
- License:
- Abstract: This paper presents Camera-LiDAR Fusion Transformer (CLFT) models for traffic object segmentation, which leverage the fusion of camera and LiDAR data using vision transformers. Building on the methodology of visual transformers that exploit the self-attention mechanism, we extend segmentation capabilities with additional classification options to a diverse class of objects including cyclists, traffic signs, and pedestrians across diverse weather conditions. Despite good performance, the models face challenges under adverse conditions which underscores the need for further optimization to enhance performance in darkness and rain. In summary, the CLFT models offer a compelling solution for autonomous driving perception, advancing the state-of-the-art in multimodal fusion and object segmentation, with ongoing efforts required to address existing limitations and fully harness their potential in practical deployments.
- Abstract(参考訳): 本稿では、視覚変換器を用いたカメラとLiDARデータの融合を利用した交通物体分割のためのカメラ-LiDAR融合変換器(CLFT)モデルを提案する。
自己注意機構を利用する視覚トランスフォーマーの方法論に基づいて,サイクリスト,交通標識,歩行者など,さまざまな種類の物体に分類オプションを追加してセグメンテーション機能を拡張した。
優れた性能にもかかわらず、モデルは悪条件下での課題に直面し、暗黒と雨のさらなる性能向上のためにさらなる最適化の必要性を浮き彫りにしている。
まとめると、CLFTモデルは自律運転知覚のための魅力的なソリューションを提供し、マルチモーダルフュージョンとオブジェクトセグメンテーションにおいて最先端の最先端を推し進める。
関連論文リスト
- Multi-scale Temporal Fusion Transformer for Incomplete Vehicle Trajectory Prediction [23.72022120344089]
運動予測は自律運転システムにおいて重要な役割を果たす。
不完全な車両軌道予測のための新しいエンドツーエンドフレームワークを提案する。
道路交通シナリオと都市交通シナリオから得られた4つのデータセットについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2024-09-02T02:36:18Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - CLFT: Camera-LiDAR Fusion Transformer for Semantic Segmentation in Autonomous Driving [0.16874375111244325]
ビジョン・トランスフォーマー(Vision Transformer)は、コンピュータビジョンアプリケーションにマルチヘッドアテンション機構をうまく導入した新しいグラウンドブレーカーである。
自律運転に適用可能なセマンティックセグメンテーションのためのカメラ-LiDAR融合を実現するビジョントランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2024-04-27T06:18:23Z) - DragTraffic: Interactive and Controllable Traffic Scene Generation for Autonomous Driving [10.90477019946728]
DragTrafficは、条件付き拡散に基づく、汎用的でインタラクティブで制御可能なトラフィックシーン生成フレームワークである。
我々は回帰モデルを用いて、一般的な初期解と条件拡散モデルに基づく改良プロセスを提供し、多様性を保証する。
実世界の運転データセットの実験によると、DragTrafficは信頼性、多様性、自由度で既存の手法より優れている。
論文 参考訳(メタデータ) (2024-04-19T04:49:28Z) - Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。
本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。
カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-04-11T10:26:40Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for
Camera-based 3D Object Detection [17.22491199725569]
VIC3Dは、車両と交通インフラの両方から多視点カメラを利用する。
我々は、新しい3Dオブジェクト検出フレームワーク、Vines-Infrastructure Multi-view Intermediate fusion (VIMI)を提案する。
VIMIは15.61%のAP_3Dと21.44%のAP_BEVを新しいVIC3DデータセットであるDAIR-V2X-Cで達成している。
論文 参考訳(メタデータ) (2023-03-20T09:56:17Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。