論文の概要: Lorentz Framework for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2604.16836v1
- Date: Sat, 18 Apr 2026 05:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.194962
- Title: Lorentz Framework for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのためのローレンツフレームワーク
- Authors: Zahid Hasan, Masud Ahmed, Nirmalya Roy,
- Abstract要約: 本稿では,双曲型ローレンツモデルにおけるアーキテクチャに依存しないセマンティックセマンティックセマンティクスフレームワークを提案する。
我々は,ローレンツ空間における階層的ピクセルレベルの表現を導くために,意味的および視覚的手がかりを用いたテキスト埋め込みを用いる。
提案手法は, 自由不確実性推定, 信頼マップ, 境界線, 階層的, テキストベース検索, ゼロショット性能をもたらす。
- 参考スコア(独自算出の注目度): 1.3904274868884825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation in hyperbolic space enables compact modeling of hierarchical structure while providing inherent uncertainty quantification. Prior approaches predominantly rely on the Poincaré ball model, which suffers from numerical instability, optimization, and computational challenges. We propose a novel, tractable, architecture-agnostic semantic segmentation framework (pixel-wise and mask classification) in the hyperbolic Lorentz model. We employ text embeddings with semantic and visual cues to guide hierarchical pixel-level representations in Lorentz space. This enables stable and efficient optimization without requiring a Riemannian optimizer, and easily integrates with existing Euclidean architectures. Beyond segmentation, our approach yields free uncertainty estimation, confidence map, boundary delineation, hierarchical and text-based retrieval, and zero-shot performance, reaching generalized flatter minima. We introduce a novel uncertainty and confidence indicator in Lorentz cone embeddings. Further, we provide analytical and empirical insights into Lorentz optimization via gradient analysis. Extensive experiments on ADE20K, COCO-Stuff-164k, Pascal-VOC, and Cityscapes, utilizing state-of-the-art per-pixel classification models (DeepLabV3 and SegFormer) and mask classification models (mask2former and maskformer), validate the effectiveness and generality of our approach. Our results demonstrate the potential of hyperbolic Lorentz embeddings for robust and uncertainty-aware semantic segmentation. Code is available at https://github.com/mxahan/Lorentz_semantic_segmentation.
- Abstract(参考訳): 双曲空間における意味的セグメンテーションは、本質的に不確実な定量化を提供しながら階層構造のコンパクトなモデリングを可能にする。
それまでのアプローチは、数値不安定性、最適化、計算上の問題に苦しむポアンカレ球モデルに大きく依存していた。
本稿では,双曲型ローレンツモデルにおいて,新しい,抽出可能な,アーキテクチャに依存しないセマンティックセマンティックセマンティックセマンティクスフレームワークを提案する。
我々は,ローレンツ空間における階層的ピクセルレベルの表現を導くために,意味的および視覚的手がかりを用いたテキスト埋め込みを用いる。
これにより、リーマン最適化を必要とせずに安定的で効率的な最適化が可能になり、既存のユークリッドアーキテクチャと容易に統合できる。
セグメンテーションを超えて、我々の手法は自由不確実性推定、信頼マップ、境界線、階層的およびテキストベースの検索、ゼロショット性能を生かし、一般化されたフラットター最小値に達する。
ローレンツ錐体埋め込みにおいて新しい不確実性および信頼度指標を導入する。
さらに、勾配解析によるローレンツ最適化に関する解析的および経験的な洞察を提供する。
ADE20K,COCO-Stuff-164k,Pascal-VOC,Cityscapesの大規模な実験では,最先端のピクセル単位の分類モデル(DeepLabV3,SegFormer)とマスク分類モデル(mask2former,マスクフォーマ)を用いて,我々のアプローチの有効性と汎用性を検証した。
本研究は,頑健かつ不確実性を考慮したセマンティックセマンティックセグメンテーションのための双曲型ローレンツ埋め込みの可能性を示した。
コードはhttps://github.com/mxahan/Lorentz_semantic_segmentationで入手できる。
関連論文リスト
- ModuSeg: Decoupling Object Discovery and Semantic Retrieval for Training-Free Weakly Supervised Segmentation [8.671473711194741]
弱教師付きセマンティックセグメンテーションは、画像レベルのラベルを用いてピクセルレベルの予測を実現することを目的としている。
我々は、オブジェクト発見と意味代入を明確に分離することに焦点を当てた、トレーニング不要な弱教師付きセマンティックセマンティックセマンティクスフレームワークであるModuSegを紹介する。
論文 参考訳(メタデータ) (2026-04-08T12:38:07Z) - Intrinsic Lorentz Neural Network [49.83037691286893]
実世界のデータは、しばしば、双曲幾何学によって自然に表される潜在階層構造を示す。
本稿では,全計算をローレンツモデル内で行う完全内在型双曲型アーキテクチャであるEmphIntrinsic Lorentz Neural Network (ILNN)を提案する。
ネットワークの中核は、従来のユークリッド・アフィン・ロジットを閉形双曲線距離に置き換え、新しいエンファンポイント-ハイアプレーン完全連結層(FC)を導入している。
論文 参考訳(メタデータ) (2026-02-27T12:48:05Z) - SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation [0.0]
凍結したCLIPビジョンエンコーダから直接、潜伏した幾何学的知識を解き明かし、解釈するアーキテクチャであるSPACE-CLIPを提案する。
意味経路は、グローバルな文脈で動的に条件付けられた高レベルな特徴を解釈する。
構造経路は、初期層から微細な空間的詳細を抽出する。
論文 参考訳(メタデータ) (2026-01-25T02:32:01Z) - HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning [77.434558721499]
部分関連ビデオ検索(PRVR)は、部分コンテンツのみを記述するテキストクエリと、未トリミングされたビデオとをマッチングするという課題に対処する。
本稿は,高次空間学習を利用してユークリッド空間の最適階層的モデリング能力を補う,PRVRのための最初のハイパーボリックモデリングフレームワークであるHLFormerを提案する。
論文 参考訳(メタデータ) (2025-07-23T10:59:46Z) - QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction [49.75084732129701]
3D占有予測は、堅牢な自動運転システムにとって不可欠である。
既存の手法のほとんどは、密度の高いボクセルベースのシーン表現を使用している。
効率的な3次元占有予測のためのスーパークワッドリックモデルであるQuadricFormerを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:59:45Z) - Lightweight Uncertainty Quantification with Simplex Semantic Segmentation for Terrain Traversability [12.765558639563649]
本稿では,任意の事前学習画像分割モデルに接続可能な,シンプルで軽量なモジュールを提案する。
我々のモジュールは、それぞれのプロトタイプベクトルによるセグメント化クラスを最大限に分離することに基づいている。
地形分割におけるモジュールの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-18T11:00:49Z) - SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。
提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2022-07-13T14:41:05Z) - Provably Accurate and Scalable Linear Classifiers in Hyperbolic Spaces [39.71927912296049]
スケーラブルで単純な双曲型線形分類器を学習するための統一的なフレームワークを提案する。
我々のアプローチの要点は、ポアンカーの球体モデルに焦点を合わせ、接空間形式を用いて分類問題を定式化することである。
Poincarの2階と戦略的パーセプトロンの優れた性能は、提案フレームワークが双曲空間における一般的な機械学習問題にまで拡張可能であることを示している。
論文 参考訳(メタデータ) (2022-03-07T21:36:21Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。