論文の概要: CountingFruit: Real-Time 3D Fruit Counting with Language-Guided Semantic Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.01109v1
- Date: Sun, 01 Jun 2025 18:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.935141
- Title: CountingFruit: Real-Time 3D Fruit Counting with Language-Guided Semantic Gaussian Splatting
- Title(参考訳): CountingFruit:リアルタイム3D Fruit Counting with Language-Guided Semantic Gaussian Splatting
- Authors: Fengze Li, Yangle Liu, Jieming Ma, Hai-Ning Liang, Yaochun Shen, Huangxiang Li, Zhijing Wu,
- Abstract要約: FruitLangGSはリアルタイムな3Dフルーツカウントフレームワークで、リコンストラクション、セマンティック埋め込み、言語誘導のインスタンス推定を通じて制限に対処する。
その結果,FruitLangGSは従来の手法に比べて高いレンダリング速度,セマンティック・フレキシビリティ,カウント精度を実現していることがわかった。
- 参考スコア(独自算出の注目度): 6.485588508671601
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate fruit counting in real-world agricultural environments is a longstanding challenge due to visual occlusions, semantic ambiguity, and the high computational demands of 3D reconstruction. Existing methods based on neural radiance fields suffer from low inference speed, limited generalization, and lack support for open-set semantic control. This paper presents FruitLangGS, a real-time 3D fruit counting framework that addresses these limitations through spatial reconstruction, semantic embedding, and language-guided instance estimation. FruitLangGS first reconstructs orchard-scale scenes using an adaptive Gaussian splatting pipeline with radius-aware pruning and tile-based rasterization for efficient rendering. To enable semantic control, each Gaussian encodes a compressed CLIP-aligned language embedding, forming a compact and queryable 3D representation. At inference time, prompt-based semantic filtering is applied directly in 3D space, without relying on image-space segmentation or view-level fusion. The selected Gaussians are then converted into dense point clouds via distribution-aware sampling and clustered to estimate fruit counts. Experimental results on real orchard data demonstrate that FruitLangGS achieves higher rendering speed, semantic flexibility, and counting accuracy compared to prior approaches, offering a new perspective for language-driven, real-time neural rendering across open-world scenarios.
- Abstract(参考訳): 実世界の農業環境における正確な果物の数え方は、視覚的閉塞、意味的曖昧さ、そして3D再構成の計算要求が高いことによる長年にわたる課題である。
既存の神経放射場に基づく手法は、推論速度の低下、一般化の制限、オープンセットセマンティックコントロールのサポートの欠如に悩まされている。
本稿では、空間再構成、セマンティック埋め込み、言語誘導型インスタンス推定を通じて、これらの制約に対処するリアルタイム3DフルーツカウントフレームワークであるFruitLangGSを提案する。
FruitLangGSは、半径対応プルーニングとタイルベースのラスタ化を併用した適応型ガウススプレイティングパイプラインを用いて、オーチャードスケールのシーンを再構築し、効率よくレンダリングする。
意味制御を可能にするために、各ガウスは圧縮されたCLIP対応の言語埋め込みを符号化し、コンパクトでクエリ可能な3D表現を形成する。
推論時には、画像空間のセグメンテーションやビューレベルの融合に頼ることなく、プロンプトベースのセマンティックフィルタリングが直接3次元空間に適用される。
選択されたガウス雲は、分布認識サンプリングによって密度の高い点雲に変換され、果実の数を推定するためにクラスタ化される。
FruitLangGSは、実際のオーチャードデータに対する実験結果から、従来のアプローチよりも高いレンダリング速度、セマンティックフレキシビリティ、およびカウント精度を実現し、オープンワールドシナリオ全体にわたる言語駆動のリアルタイムニューラルネットワークレンダリングに対する新たな視点を提供する。
関連論文リスト
- CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting [18.581169318975046]
3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。
空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。
CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
論文 参考訳(メタデータ) (2025-04-16T09:20:03Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - GaussianRoom: Improving 3D Gaussian Splatting with SDF Guidance and Monocular Cues for Indoor Scene Reconstruction [5.112375652774415]
本稿では,SDFと3DGSを統合し,正確な幾何再構成とリアルタイムレンダリングを行う統合最適化フレームワークを提案する。
本手法は, 表面再構成と新しいビュー合成の両面において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T03:46:59Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。