論文の概要: CountingFruit: Language-Guided 3D Fruit Counting with Semantic Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.01109v2
- Date: Fri, 01 Aug 2025 23:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:56.977194
- Title: CountingFruit: Language-Guided 3D Fruit Counting with Semantic Gaussian Splatting
- Title(参考訳): CountingFruit:Semantic Gaussian Splattingを用いた言語誘導型3DFruit Counting
- Authors: Fengze Li, Yangle Liu, Jieming Ma, Hai-Ning Liang, Yaochun Shen, Huangxiang Li, Zhijing Wu,
- Abstract要約: FruitLangGSは言語誘導型3Dフルーツカウントフレームワークである。
適応密度のガウススプラッティングパイプラインを用いてオーチャードスケールのシーンを再構成する。
マルチビューセグメンテーション融合エラーを回避し、Fuji-SfMオーチャードデータセット上で最大99.2%のリコールを達成する。
- 参考スコア(独自算出の注目度): 6.485588508671601
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate 3D fruit counting in orchards is challenging due to heavy occlusion, semantic ambiguity between fruits and surrounding structures, and the high computational cost of volumetric reconstruction. Existing pipelines often rely on multi-view 2D segmentation and dense volumetric sampling, which lead to accumulated fusion errors and slow inference. We introduce FruitLangGS, a language-guided 3D fruit counting framework that reconstructs orchard-scale scenes using an adaptive-density Gaussian Splatting pipeline with radius-aware pruning and tile-based rasterization, enabling scalable 3D representation. During inference, compressed CLIP-aligned semantic vectors embedded in each Gaussian are filtered via a dual-threshold cosine similarity mechanism, retrieving Gaussians relevant to target prompts while suppressing common distractors (e.g., foliage), without requiring retraining or image-space masks. The selected Gaussians are then sampled into dense point clouds and clustered geometrically to estimate fruit instances, remaining robust under severe occlusion and viewpoint variation. Experiments on nine different orchard-scale datasets demonstrate that FruitLangGS consistently outperforms existing pipelines in instance counting recall, avoiding multi-view segmentation fusion errors and achieving up to 99.2\% recall on Fuji-SfM orchard dataset. Ablation studies further confirm that language-conditioned semantic embedding and dual-threshold prompt filtering are essential for suppressing distractors and improving counting accuracy under heavy occlusion. Beyond fruit counting, the same framework enables prompt-driven 3D semantic retrieval without retraining, highlighting the potential of language-guided 3D perception for scalable agricultural scene understanding.
- Abstract(参考訳): 果樹園における正確な3D果実の数え方は, 密接な閉塞, 果実とその周辺構造間の意味的あいまいさ, 体積再構成の計算コストが高いため, 困難である。
既存のパイプラインは、しばしばマルチビュー2Dセグメンテーションと密度の高いボリュームサンプリングに依存しており、融合エラーの蓄積と推論の遅さにつながる。
FruitLangGSは,適応密度のガウシアン・スプレイティング・パイプラインを半径対応プルーニングとタイルベースラスタ化で構築し,スケーラブルな3D表現を実現する言語誘導型3Dフルーツカウントフレームワークである。
推論中、各ガウスアンに埋め込まれた圧縮されたCLIPアラインセマンティックベクターは、二重閾値コサイン類似機構を介してフィルタリングされる。
選択されたガウス群は、濃厚な点雲にサンプリングされ、幾何的にクラスタ化され、果実のインスタンスを推定し、厳密な閉塞と視点変化の下で頑健なままである。
9つの異なるオーチャードスケールデータセットの実験では、FruitLangGSはリコールのカウント、複数ビューのセグメンテーション融合エラーの回避、Fuji-SfMオーチャードデータセットの最大99.2\%リコールなど、既存のパイプラインを一貫して上回っている。
アブレーション研究は、言語条件付きセマンティック埋め込みと二重閾値プロンプトフィルタリングが、イントラクタの抑制と重閉塞下でのカウント精度の向上に不可欠であることをさらに確認した。
果物の数え上げ以外にも、同じフレームワークは、言語誘導型3D知覚によるスケーラブルな農業シーン理解の可能性を強調しながら、トレーニングをすることなく、プロンプト駆動の3Dセマンティック検索を可能にする。
関連論文リスト
- Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing [27.24794829116753]
ガウススプラッティングにおける2次元視覚分割を3次元に引き上げることの課題に対処する。
既存の方法は、視界を横断する不整合な2Dマスクに悩まされ、うるさいセグメンテーション境界を生成する。
本稿では,標準ガウス表現を入力ビュー全体にわたってインスタンス重み行列で拡張するガウスインスタンス追跡(GIT)を紹介する。
論文 参考訳(メタデータ) (2025-08-05T08:54:17Z) - CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting [18.581169318975046]
3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。
空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。
CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
論文 参考訳(メタデータ) (2025-04-16T09:20:03Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - COB-GS: Clear Object Boundaries in 3DGS Segmentation Based on Boundary-Adaptive Gaussian Splitting [67.03992455145325]
3D Gaussian Splatting(3DGS)に基づく3Dセグメンテーションは、オブジェクトの境界を正確に記述するのに苦労する。
セグメンテーション精度の向上を目的とした3DGS(COB-GS)のためのクリアオブジェクト境界を導入する。
意味指導には境界適応型ガウス分割法を導入する。
視覚的最適化のために、3DGSシーンの劣化したテクスチャを補正する。
論文 参考訳(メタデータ) (2025-03-25T08:31:43Z) - PanopticSplatting: End-to-End Panoptic Gaussian Splatting [20.04251473153725]
そこで我々は,オープン・ボキャブラリ・パノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノ
本手法では,クエリ誘導型ガウス分割と局所的クロスアテンションを導入し,クロスフレームアソシエーションなしで2次元のインスタンスマスクを持ち上げる。
本手法は,ScanNet-V2とScanNet++データセット上での3Dシーンパノビュータ再構成において,高い性能を示す。
論文 参考訳(メタデータ) (2025-03-23T13:45:39Z) - Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - GAGS: Granularity-Aware Feature Distillation for Language Gaussian Splatting [17.357179730544175]
近年,空間内の物体の複雑な意味的特性を正確に知覚する3次元オープン語彙シーン理解が注目されている。
GAGSは2次元CLIP機能を3次元ガウススプラッティングに蒸留し,任意の視点でレンダリングを行うためのオープン語彙クエリを実現するフレームワークである。
論文 参考訳(メタデータ) (2024-12-18T09:33:20Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - GaussianRoom: Improving 3D Gaussian Splatting with SDF Guidance and Monocular Cues for Indoor Scene Reconstruction [5.112375652774415]
本稿では,SDFと3DGSを統合し,正確な幾何再構成とリアルタイムレンダリングを行う統合最適化フレームワークを提案する。
本手法は, 表面再構成と新しいビュー合成の両面において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T03:46:59Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。