論文の概要: GIBLy: Improving 3D Semantic Segmentation through an Architecture-Agnostic Lightweight Geometric Inductive Bias Layer
- arxiv url: http://arxiv.org/abs/2605.24243v1
- Date: Fri, 22 May 2026 21:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.77041
- Title: GIBLy: Improving 3D Semantic Segmentation through an Architecture-Agnostic Lightweight Geometric Inductive Bias Layer
- Title(参考訳): GIBLy: アーキテクチャに依存しない幾何学的誘導バイアス層による3次元セマンティックセマンティックセマンティックセグメンテーションの改善
- Authors: Diogo Lavado, Alessandra Micheletti, Clàudia Soares,
- Abstract要約: 3Dシーン理解では、ディープラーニングモデルは、基本的な幾何学的構造を捉えるために、大きなモデルと広範な訓練に依存している。
GIBLyは3次元セグメンテーションパイプラインにプリエントを統合する軽量な帰納的幾何バイアス層である。
複数の3次元セマンティックセグメンテーションベンチマークにまたがるアプローチを検証し、一貫した性能向上を示す。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In 3D scene understanding, deep learning models rely on large models and extensive training to capture basic geometric structures that are present in the 3D data. However, existing methods lack explicit mechanisms to incorporate geometric information, such as learnable primitive shapes, often necessitating large models and more training data which in turn increases cost and can limit generalization. We introduce GIBLy, a lightweight geometric inductive bias layer that integrates learnable geometric priors into 3D segmentation pipelines. GIBLy enhances existing architectures -- whether MLP-based, convolution-based, or transformer-based -- by providing features aligned with simple geometric shapes (and thus human-interpretable) that improve segmentation performance with minimal computational overhead. We validate our approach across multiple 3D semantic segmentation benchmarks, demonstrating consistent performance gains, including up to +11.5% mIoU on TS40K with PTV3, while adding only 58K extra parameters. Our results highlight the benefit of explicitly encoding geometric structure to support accurate and efficient 3D scene understanding, with a lightweight add-on layer
- Abstract(参考訳): 3Dシーン理解において、ディープラーニングモデルは、3Dデータに存在する基本的な幾何学的構造を捉えるために、大きなモデルと広範な訓練に依存している。
しかし、既存の手法では、学習可能な原始形状のような幾何学的情報を組み込むための明確なメカニズムが欠如しており、しばしば大きなモデルや、コストを増大させ、一般化を制限する訓練データを必要とする。
GIBLyは、学習可能な幾何学的先行要素を3次元セグメント化パイプラインに統合する軽量な幾何学的帰納バイアス層である。
GIBLyは既存のアーキテクチャ(MLPベース、畳み込みベース、トランスフォーマーベース)を強化し、計算オーバーヘッドを最小限に抑えてセグメンテーション性能を改善する単純な幾何学的形状(従って人間解釈可能)に整列した機能を提供する。
我々は、複数の3Dセマンティックセグメンテーションベンチマークにまたがってアプローチを検証し、TS40KとPTV3で+11.5% mIoUまでの性能向上を示した。
本研究は,3次元シーン理解を高精度かつ効率的に支援するための幾何学的構造を,軽量なアドオン層で明示的に符号化する利点を強調した。
関連論文リスト
- GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。