論文の概要: StixelNExT++: Lightweight Monocular Scene Segmentation and Representation for Collective Perception
- arxiv url: http://arxiv.org/abs/2507.06687v1
- Date: Wed, 09 Jul 2025 09:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.539813
- Title: StixelNExT++: Lightweight Monocular Scene Segmentation and Representation for Collective Perception
- Title(参考訳): StixelNExT++: 集合知覚のための軽量な単眼シーンセグメンテーションと表現
- Authors: Marcel Vosshans, Omar Ait-Aider, Youcef Mezouar, Markus Enzweiler,
- Abstract要約: StixelNExT++はモノクル認識システムのためのシーン表現の新しいアプローチである。
我々の軽量ニューラルネットワークは、自動的に生成されたLiDARベースの地上真実に基づいて訓練されており、1フレームあたり10ミリ秒の時間でリアルタイムのパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 8.684797433797744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents StixelNExT++, a novel approach to scene representation for monocular perception systems. Building on the established Stixel representation, our method infers 3D Stixels and enhances object segmentation by clustering smaller 3D Stixel units. The approach achieves high compression of scene information while remaining adaptable to point cloud and bird's-eye-view representations. Our lightweight neural network, trained on automatically generated LiDAR-based ground truth, achieves real-time performance with computation times as low as 10 ms per frame. Experimental results on the Waymo dataset demonstrate competitive performance within a 30-meter range, highlighting the potential of StixelNExT++ for collective perception in autonomous systems.
- Abstract(参考訳): 本稿では,モノクル認識システムのためのシーン表現手法であるStixelNExT++を提案する。
確立されたスティクセル表現に基づいて、3次元スティクセルを推定し、より小さな3次元ディクセル単位をクラスタリングすることによってオブジェクトセグメンテーションを強化する。
この手法は、点雲や鳥眼ビューの表現に適応しながら、シーン情報の高い圧縮を実現する。
我々の軽量ニューラルネットワークは、自動的に生成されたLiDARベースの地上真実に基づいて訓練され、1フレームあたり10ミリ秒の計算時間でリアルタイムのパフォーマンスを実現する。
Waymoデータセットの実験結果は、30mの範囲内での競合性能を示し、自律システムにおける集合認識に対するStixelNExT++の可能性を強調している。
関連論文リスト
- EvLight++: Low-Light Video Enhancement with an Event Camera: A Large-Scale Real-World Dataset, Novel Method, and More [7.974102031202597]
EvLight++は、現実のシナリオで堅牢なパフォーマンスのために設計された、イベント誘導型低照度ビデオ拡張アプローチである。
EvLight++は1.37dBと3.71dBの2つのイメージベースとビデオベースの両方で大幅に性能が向上した。
論文 参考訳(メタデータ) (2024-08-29T04:30:31Z) - D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - Sparse 3D Reconstruction via Object-Centric Ray Sampling [20.874406440346462]
本研究では,360度カメラリグから取得したスパースビューから3次元オブジェクトを復元する新しい手法を提案する。
我々は、校正ベースニューラル表現とトライアングルメッシュの両方を使用するハイブリッドモデルにより、オブジェクトを表現する。
私たちはGoogleのScanned Objects, Tank and Temples, MVMC Carデータセットのスパースなビューで作業しています。
論文 参考訳(メタデータ) (2023-09-06T13:54:31Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views [5.510992382274774]
いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
論文 参考訳(メタデータ) (2020-04-06T14:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。