論文の概要: LiteViLNet: Lightweight Vision-LiDAR Fusion Network for Efficient Road Segmentation
- arxiv url: http://arxiv.org/abs/2605.21007v1
- Date: Wed, 20 May 2026 10:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.630411
- Title: LiteViLNet: Lightweight Vision-LiDAR Fusion Network for Efficient Road Segmentation
- Title(参考訳): LiteViLNet:効率的な道路分割のための軽量ビジョン-LiDAR融合ネットワーク
- Authors: Daojie Peng, Bingtao Wang, Fulong Ma, Liang Zhang, Jun Ma,
- Abstract要約: 高速道路分割のためのRGBテクスチャ情報とLiDAR幾何情報を融合した軽量マルチモーダルネットワークである textbfLiteViLNet を提案する。
具体的には、両モードの階層的特徴を最小限のパラメータで抽出するために、デュアルストリーム軽量エンコーダと深度ワイド分離可能な畳み込みを設計する。
KITTI Roadデータセットと実世界のアプリケーションの実験は、LiteViLNetが精度と効率の有望なバランスを達成していることを示している。
- 参考スコア(独自算出の注目度): 6.81209407358202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Road segmentation is a fundamental perception task for autonomous driving and intelligent robotic systems, requiring both high accuracy and real-time inference, especially for deployment on resource-constrained edge devices. Existing multi-modal road segmentation methods often rely on heavy transformer-based encoders to achieve state-of-the-art performance, but their enormous computational cost prohibits real-time deployment on embedded platforms. To address this dilemma, we propose \textbf{LiteViLNet}, a lightweight multi-modal network that fuses RGB texture information and LiDAR geometric information for efficient road segmentation. Specifically, we design a dual-stream lightweight encoder and depth-wise separable convolutions to extract hierarchical features from both modalities with minimal parameters. We further propose a Multi-Scale Feature Fusion Module (MSFM) to facilitate cross-modal interaction at different levels, and a large-kernel-bridge module to capture long-range dependencies with linear complexity. Extensive experiments on the KITTI Road dataset and real-world applications demonstrate that LiteViLNet achieves a promising balance between accuracy and efficiency. Notably, with only 14.04M parameters, our model attains a 96.36\% MaxF score, ranking the best among all CNN-based methods and being comparable to larger transformer-based models, and runs at 163.79 FPS in model-only inference on RTX 4060 Ti (22.18 FPS on Jetson Orin NX). It outperforms numerous heavy-weight methods in inference speed while maintaining highly competitive accuracy, fully validating the potential of LiteViLNet for real-time embedded deployment in autonomous driving and intelligent robotics.
- Abstract(参考訳): 道路分割は自律走行とインテリジェントロボットシステムにとって基本的な認識課題であり、特に資源制約のエッジデバイスへの展開には高精度とリアルタイムの推論の両方を必要とする。
既存のマルチモーダル道路セグメンテーション手法は、しばしば最先端の性能を達成するために重変圧器ベースのエンコーダに頼っているが、その膨大な計算コストは組込みプラットフォームへのリアルタイム展開を妨げている。
このジレンマに対処するために,RGBテクスチャ情報とLiDAR幾何情報を融合して効率的な道路セグメンテーションを行う軽量マルチモーダルネットワークである \textbf{LiteViLNet} を提案する。
具体的には、両モードの階層的特徴を最小限のパラメータで抽出するために、デュアルストリーム軽量エンコーダと深度ワイド分離可能な畳み込みを設計する。
さらに,異なるレベルでのクロスモーダル相互作用を容易にするマルチスケール・フィーチャー・フュージョン・モジュール (MSFM) と,線形複雑度で長距離依存性を捉える大カーネル・ブリッジ・モジュールを提案する。
KITTI Roadデータセットと実世界のアプリケーションに関する大規模な実験は、LiteViLNetが精度と効率の有望なバランスを達成していることを示している。
注目すべきは、たった14.04Mパラメータだけで、我々のモデルは96.36\%のMaxFスコアを獲得し、全てのCNNベースのメソッドの中で最高で、大きなトランスフォーマーベースのモデルに匹敵し、RTX 4060 Ti (Jetson Orin NXの22.18 FPS)のモデルのみの推論で163.79 FPSで実行されることである。
非常に競争力のある精度を維持しながら、推論速度において多くの重み付け手法よりも優れており、自律運転とインテリジェントロボティクスにおけるリアルタイムな組み込みデプロイメントに対するLiteViLNetの可能性を完全に検証している。
関連論文リスト
- CLIDD: Cross-Layer Independent Deformable Description for Efficient and Discriminative Local Feature Representation [6.478456907626643]
CLIDD (Cross-Layer Independent Deformable Description) は、独立な特徴階層から直接サンプリングすることで、優れた特徴性を実現する手法である。
リアルタイム性能を確保するため,ハードウェア対応のカーネル融合戦略を実装した。
軽量アーキテクチャとトレーニングプロトコルを統合するスケーラブルなフレームワークを開発する。
論文 参考訳(メタデータ) (2026-01-14T07:03:01Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - TwinLiteNet+: An Enhanced Multi-Task Segmentation Model for Autonomous Driving [2.1204495827342438]
TwinLiteNet+は、リアルタイムドライビング可能な領域とレーンセグメンテーションのための拡張マルチタスクセグメンテーションモデルである。
これは、ストライドベースの拡張畳み込みと深さ方向に分離可能な拡張畳み込みを統合するハイブリッドエンコーダアーキテクチャを採用している。
このモデルは、超コンパクトなTwinLiteNet+_Nano (34Kパラメータ)から高性能なTwinLiteNet+_Large (1.94Mパラメータ)までの4つの構成で利用できる。
論文 参考訳(メタデータ) (2024-03-25T17:17:45Z) - AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation [4.54656749337919]
AsymFormerは、RGB-Dマルチモーダル情報を用いたリアルタイムセマンティックセグメンテーションの精度を向上させる新しいネットワークである。
AsymFormerはマルチモーダルな特徴抽出に非対称なバックボーンを使用し、冗長なパラメータを削減している。
AsymFormerは高い精度と効率のバランスを取ることができる。
論文 参考訳(メタデータ) (2023-09-25T11:57:16Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-scale Interaction for Real-time LiDAR Data Segmentation on an
Embedded Platform [62.91011959772665]
LiDARデータのリアルタイムセマンティックセグメンテーションは、自動運転車にとって不可欠である。
ポイントクラウド上で直接動作する現在のアプローチでは、複雑な空間集約操作を使用する。
本稿では,マルチスケールインタラクションネットワーク(MINet)と呼ばれるプロジェクションベースの手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T19:06:11Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。