論文の概要: Fast-SegSim: Real-Time Open-Vocabulary Segmentation for Robotics in Simulation
- arxiv url: http://arxiv.org/abs/2604.10951v1
- Date: Mon, 13 Apr 2026 03:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.297049
- Title: Fast-SegSim: Real-Time Open-Vocabulary Segmentation for Robotics in Simulation
- Title(参考訳): Fast-SegSim: シミュレーションにおけるロボットのためのリアルタイムオープン語彙セグメンテーション
- Authors: Xuan Yu, Yuxuan Xie, Shichao Zhai, Shuhao Ye, Rong Xiong, Yue Wang,
- Abstract要約: Fast-SegSimは、2D Gaussian Splatting上に構築された、新しく、シンプルで、エンドツーエンドのフレームワークである。
我々のコアコントリビューションは高度に最適化されたレンダリングパイプラインであり、特にハイチャネルセグメンテーションの計算ボトルネックに対処しています。
Fast-SegSimはロボットアプリケーションにおいて重要な価値を提供し、その3D一貫性のある出力は、不可欠なマルチビューの「地上真実」ラベルを提供する。
- 参考スコア(独自算出の注目度): 23.703731324592656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary panoptic reconstruction is crucial for advanced robotics and simulation. However, existing 3D reconstruction methods, such as NeRF or Gaussian Splatting variants, often struggle to achieve the real-time inference frequency required by robotic control loops. Existing methods incur prohibitive latency when processing the high-dimensional features required for robust open-vocabulary segmentation. We propose Fast-SegSim, a novel, simple, and end-to-end framework built upon 2D Gaussian Splatting, designed to realize real-time, high-fidelity, and 3D-consistent open-vocabulary segmentation reconstruction. Our core contribution is a highly optimized rendering pipeline that specifically addresses the computational bottleneck of high-channel segmentation feature accumulation. We introduce two key optimizations: Precise Tile Intersection to reduce rasterization redundancy, and a novel Top-K Hard Selection strategy. This strategy leverages the geometric sparsity inherent in the 2D Gaussian representation to greatly simplify feature accumulation and alleviate bandwidth limitations, achieving render rates exceeding 40 FPS. Fast-SegSim provides critical value in robotic applications: it serves both as a high-frequency sensor input for simulation platforms like Gazebo, and its 3D-consistent outputs provide essential multi-view 'ground truth' labels for fine-tuning downstream perception tasks. We demonstrate this utility by using the generated labels to fine-tune the perception module in object goal navigation, successfully doubling the navigation success rate. Our superior rendering speed and practical utility underscore Fast-SegSim's potential to bridge the sim-to-real gap.
- Abstract(参考訳): オープン・ボキャブラリ・パンオプティカル・コンストラクションは高度なロボティクスとシミュレーションに不可欠である。
しかし、NeRF や Gaussian Splatting のような既存の3D再構成手法は、ロボット制御ループで要求されるリアルタイムの推論周波数を達成するのにしばしば苦労する。
既存の手法は、堅牢な開語彙セグメンテーションに必要な高次元特徴を処理する際に、禁忌遅延を発生させる。
実時間, 高忠実度, および3D一貫性のオープン語彙セグメンテーション再構成を実現するために, 2次元ガウス平板上に構築された新しい, シンプルで, エンドツーエンドのフレームワークであるFast-SegSimを提案する。
我々のコアコントリビューションは高度に最適化されたレンダリングパイプラインであり、特にハイチャネルセグメンテーション機能蓄積の計算ボトルネックに対処しています。
本稿では,ラスタ化冗長性を低減するための精密タイル切断法と,新しいTop-Kハード選択法を提案する。
この戦略は、2Dガウス表現に固有の幾何学的空間性を活用し、特徴蓄積を大幅に単純化し、帯域幅制限を緩和し、40 FPSを超えるレンダリングレートを達成する。
Fast-SegSimは、Gazeboのようなシミュレーションプラットフォームのための高周波センサー入力として機能し、その3D一貫性のある出力は、下流の知覚タスクを微調整するために不可欠なマルチビューの「地上真実」ラベルを提供する。
生成したラベルを用いてオブジェクト目標ナビゲーションの認識モジュールを微調整し、ナビゲーション成功率を2倍にすることで、このユーティリティを実証する。
我々の優れたレンダリング速度と実用性は、sim-to-realギャップを埋めるFast-SegSimの可能性を基盤にしています。
関連論文リスト
- Ψ-Map: Panoptic Surface Integrated Mapping Enables Real2Sim Transfer [24.777932568749446]
幾何学的強化, エンドツーエンドの汎光学学習, 効率的なレンダリングを統合した包括的フレームワークを提案する。
提案システムは,40FPSを超える推論率を維持しながら,大規模シーンにおいて優れた幾何学的・パノプティックな再現性を実現する。
論文 参考訳(メタデータ) (2026-04-13T04:41:00Z) - Mobile-GS: Real-time Gaussian Splatting for Mobile Devices [16.605749198745105]
3D Gaussian Splatting (3DGS)は、幅広いアプリケーションにわたる高品質なレンダリングの強力な表現として登場した。
エッジデバイス上でのガウス的スプレイティングの効率的な推論を可能にする,Mobile-GS と呼ばれる移動調整型リアルタイムガウス的スプレイティング手法を提案する。
提案するMobile-GSは,視覚的品質を保ちながら,リアルタイムレンダリングとコンパクトなモデルサイズを実現し,モバイルアプリケーションに適している。
論文 参考訳(メタデータ) (2026-03-12T04:33:04Z) - FTSplat: Feed-forward Triangle Splatting Network [0.0]
キャリブレーションされた多視点画像から連続した三角形表面を直接予測する三角形原始生成のためのフィードフォワードフレームワークを提案する。
本手法は,シミュレーション可能なモデルを1つのフォワードパスで生成し,シーンごとの最適化や後処理の必要性を回避する。
論文 参考訳(メタデータ) (2026-03-06T06:04:09Z) - SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - Perceive-Sample-Compress: Towards Real-Time 3D Gaussian Splatting [7.421996491601524]
本稿では,3次元ガウス平滑化のための新しい知覚・サンプル圧縮フレームワークを提案する。
提案手法は,リアルタイムレンダリング速度を維持しながら,メモリ効率と視覚的品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T01:34:38Z) - From Coarse to Fine: Learnable Discrete Wavelet Transforms for Efficient 3D Gaussian Splatting [5.026688852582894]
AutoOpti3DGSは、視覚的忠実さを犠牲にすることなく、ガウスの増殖を自動的に抑制するトレーニングタイムフレームワークである。
ウェーブレット駆動で粗大なプロセスは、冗長な微細ガウスの形成を遅らせる。
論文 参考訳(メタデータ) (2025-06-29T00:27:17Z) - LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [75.67501939005119]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T06:50:57Z) - MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo [54.00987996368157]
MVSGaussianは、Multi-View Stereo(MVS)から導かれる新しい一般化可能な3次元ガウス表現手法である。
MVSGaussianは、シーンごとにより良い合成品質でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2024-05-20T17:59:30Z) - GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。