論文の概要: Vision-Only Gaussian Splatting for Collaborative Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2508.10936v1
- Date: Tue, 12 Aug 2025 19:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.588726
- Title: Vision-Only Gaussian Splatting for Collaborative Semantic Occupancy Prediction
- Title(参考訳): 協調的意味的活動予測のための視覚のみのガウススプラッティング
- Authors: Cheng Chen, Hao Huang, Saurabh Bagchi,
- Abstract要約: 協調認識により、連結車両は情報を共有できる。
既存の3Dセマンティック占有予測のための視覚のみの手法は、一般的に密度の高い3Dボクセルに依存している。
本稿では,スパース3Dセマンティックスプラッティングを利用した3Dセマンティック占有予測手法を提案する。
- 参考スコア(独自算出の注目度): 12.80732853899807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception enables connected vehicles to share information, overcoming occlusions and extending the limited sensing range inherent in single-agent (non-collaborative) systems. Existing vision-only methods for 3D semantic occupancy prediction commonly rely on dense 3D voxels, which incur high communication costs, or 2D planar features, which require accurate depth estimation or additional supervision, limiting their applicability to collaborative scenarios. To address these challenges, we propose the first approach leveraging sparse 3D semantic Gaussian splatting for collaborative 3D semantic occupancy prediction. By sharing and fusing intermediate Gaussian primitives, our method provides three benefits: a neighborhood-based cross-agent fusion that removes duplicates and suppresses noisy or inconsistent Gaussians; a joint encoding of geometry and semantics in each primitive, which reduces reliance on depth supervision and allows simple rigid alignment; and sparse, object-centric messages that preserve structural information while reducing communication volume. Extensive experiments demonstrate that our approach outperforms single-agent perception and baseline collaborative methods by +8.42 and +3.28 points in mIoU, and +5.11 and +22.41 points in IoU, respectively. When further reducing the number of transmitted Gaussians, our method still achieves a +1.9 improvement in mIoU, using only 34.6% communication volume, highlighting robust performance under limited communication budgets.
- Abstract(参考訳): 協調認識により、連結車両は情報を共有し、閉塞を克服し、単一エージェント(非協調)システムに固有の制限された知覚範囲を拡張することができる。
既存の3Dセマンティック占有予測のための視覚のみの手法は、一般的に、高い通信コストまたは正確な深さ推定や追加の監督を必要とする2D平面特徴を発生させる高密度な3Dボクセルに依存しており、協調的なシナリオに適用可能である。
これらの課題に対処するために,スパース3Dセマンティックスプラッティングを利用した最初のアプローチを提案し,協調的な3Dセマンティック占有率予測を行う。
中間ガウス的プリミティブの共有と融合により, 重複を除去し, ノイズや不整合ガウスを抑える近傍のクロスエージェント融合, 深度管理への依存を減らし, 単純な剛性アライメントを可能にする各プリミティブにおける幾何学的および意味論の連成符号化, 通信量を低減しながら構造情報を保存するスパースなオブジェクト中心メッセージの3つの利点を提供する。
本手法は, mIoUでは+8.42点, mIoUでは+3.28点, IoUでは+5.11点, +22.41点において, 単エージェント知覚とベースライン協調法より優れていた。
送信されたガウスの数をさらに減らすと、mIoUの+1.9の改善が達成され、通信容量は34.6%に留まり、限られた通信予算下でのロバストな性能が強調される。
関連論文リスト
- Object Affordance Recognition and Grounding via Multi-scale Cross-modal Representation Learning [64.32618490065117]
Embodied AIの中核的な問題は、人間がしているように、観察からオブジェクト操作を学ぶことだ。
本稿では,3D表現の可利用性を学習し,段階的推論戦略を採用する新しい手法を提案する。
提案手法の有効性を実証し,アベイランスグラウンドと分類の両面での性能向上を示した。
論文 参考訳(メタデータ) (2025-08-02T04:14:18Z) - A Synthetic Benchmark for Collaborative 3D Semantic Occupancy Prediction in V2X Autonomous Driving [3.6538681992157604]
3Dセマンティック占有予測は、自律運転における新たな知覚パラダイムである。
既存の協調認識データセットをCARLAで高分解能なセマンティックボクセルセンサで再生することで拡張する。
本研究では,空間アライメントとアテンションアグリゲーションによるエージェント間特徴融合を行うベースラインモデルを開発した。
論文 参考訳(メタデータ) (2025-06-20T13:58:10Z) - TACOcc:Target-Adaptive Cross-Modal Fusion with Volume Rendering for 3D Semantic Occupancy [14.075911467687789]
本稿では,3次元意味的占有予測のためのターゲットスケール適応対称検索機構を提案する。
大規模なターゲットのために地区を拡張し、コンテキスト認識を強化し、小さなターゲットのためにそれを縮小し、効率を改善し、騒音を抑える。
本稿では,3次元意味的占有予測のための適応型マルチモーダル融合フレームワークTACOccを提案する。
論文 参考訳(メタデータ) (2025-05-19T04:32:36Z) - TGP: Two-modal occupancy prediction with 3D Gaussian and sparse points for 3D Environment Awareness [13.68631587423815]
3Dセマンティックな占有力は、ロボット工学と自律運転環境知覚の分野において、急速に研究の焦点となっている。
既存の占有予測タスクは、voxelやポイントクラウドベースのアプローチを使用してモデル化される。
本稿では空間的位置と体積構造情報のバランスをとる3次元ガウス集合とスパース点に基づく2次元モーダル予測法を提案する。
論文 参考訳(メタデータ) (2025-03-13T01:35:04Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Collaborative Semantic Occupancy Prediction with Hybrid Feature Fusion in Connected Automated Vehicles [13.167432547990487]
協調的な3Dセマンティック占有予測のための最初の手法を提案する。
セマンティックタスクと占有タスクのハイブリッド融合により、局所的な3Dセマンティック占有予測を改善する。
我々のモデルは、後続の知覚への応用において、最先端の協調的な3D検出技術に勝るセマンティック占有度に依存している。
論文 参考訳(メタデータ) (2024-02-12T13:19:08Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。