論文の概要: SENSE: Stereo OpEN Vocabulary SEmantic Segmentation
- arxiv url: http://arxiv.org/abs/2604.15946v1
- Date: Fri, 17 Apr 2026 11:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.884339
- Title: SENSE: Stereo OpEN Vocabulary SEmantic Segmentation
- Title(参考訳): SENSE: Stereo OpEN Vocabulary Semantic Segmentation
- Authors: Thomas Campagnolo, Ezio Malis, Philippe Martinet, Gaétan Bahl,
- Abstract要約: Open-vocabulary セマンティックセマンティックセマンティクスにより、モデルは固定されたクラスセットを超えてオブジェクトまたはイメージ領域をセマンティクスできる。
SENSEはStereo OpENセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスを強化するための最初の研究である。
ステレオ画像ペアを組み込むことにより,空間的推論とセグメンテーションの精度を向上させる幾何学的手法を導入する。
- 参考スコア(独自算出の注目度): 5.220640003552874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic segmentation enables models to segment objects or image regions beyond fixed class sets, offering flexibility in dynamic environments. However, existing methods often rely on single-view images and struggle with spatial precision, especially under occlusions and near object boundaries. We propose SENSE, the first work on Stereo OpEN Vocabulary SEmantic Segmentation, which leverages stereo vision and vision-language models to enhance open-vocabulary semantic segmentation. By incorporating stereo image pairs, we introduce geometric cues that improve spatial reasoning and segmentation accuracy. Trained on the PhraseStereo dataset, our approach achieves strong performance in phrase-grounded tasks and demonstrates generalization in zero-shot settings. On PhraseStereo, we show a +2.9% improvement in Average Precision over the baseline method and +0.76% over the best competing method. SENSE also provides a relative improvement of +3.5% mIoU on Cityscapes and +18% on KITTI compared to the baseline work. By jointly reasoning over semantics and geometry, SENSE supports accurate scene understanding from natural language, essential for autonomous robots and Intelligent Transportation Systems.
- Abstract(参考訳): オープンボキャブラリセマンティックセグメンテーションにより、モデルは固定されたクラスセットを超えてオブジェクトやイメージ領域をセグメンテーションすることができ、動的環境の柔軟性を提供する。
しかし、既存の手法はしばしば単一視点の画像に頼り、特に閉塞や近距離物体境界下での空間的精度に苦しむ。
本稿では,ステレオビジョンと視覚言語モデルを活用し,オープン語彙セマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティック(SENSE)を提案する。
ステレオ画像ペアを組み込むことにより,空間的推論とセグメンテーションの精度を向上させる幾何学的手法を導入する。
PhraseStereoデータセットをトレーニングし、フレーズグラウンドタスクで高いパフォーマンスを実現し、ゼロショット設定での一般化を実証する。
PhraseStereoでは、ベースライン法では平均精度が+2.9%向上し、競合法では+0.76%向上した。
SENSEはまた、シティスケープでは+3.5% mIoU、KITTIでは+18%の相対的な改善を提供している。
意味論と幾何学を共同で推論することで、SENSEは自然言語からの正確なシーン理解をサポートし、自律ロボットやインテリジェントトランスポーテーションシステムに必須である。
関連論文リスト
- dinov3.seg: Open-Vocabulary Semantic Segmentation with DINOv3 [36.6036728217708]
Open-Vocabulary Semantics (OVSS)は、テキスト定義カテゴリのオープンセットからピクセルレベルのラベルを割り当て、推論時に見えないクラスに信頼性の高い一般化を要求する。
我々は dinov3.seg を導入し、 dinov3.txt を OVSS 専用のフレームワークに拡張した。
まず、このバックボーンに合わせたタスク固有のアーキテクチャを設計し、従来のオープン語彙セグメンテーション作業から確立した設計原則を体系的に適用する。
第2に、VTベースのエンコーダのグローバルトークンとローカルパッチレベルのビジュアル特徴の両方に整合したテキスト埋め込みを共同で活用する。
論文 参考訳(メタデータ) (2026-03-19T23:57:28Z) - PhraseStereo: The First Open-Vocabulary Stereo Image Segmentation Dataset [4.054016539071785]
PhraseStereoは、ステレオ画像ペアにフレーズ領域セグメンテーションをもたらす最初の新しいデータセットである。
GenStereoを活用してPhraseCutデータセット上に構築され、既存のシングルビューデータから正確な右ビュー画像を生成する。
言語、視覚、および3D知覚の交わりにおける将来の研究の基礎を築いている。
論文 参考訳(メタデータ) (2025-10-01T12:29:24Z) - Synthetic Captions for Open-Vocabulary Zero-Shot Segmentation [6.004292247258359]
生成的視覚言語モデルにより生成された合成記述と画像の密な整合性を示す。
提案手法は, 標準ゼロショット開語彙セグメンテーションベンチマーク/データセットにおいて, 先行研究より優れていた。
論文 参考訳(メタデータ) (2025-09-15T12:26:47Z) - GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。
近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。
生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。
実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文 参考訳(メタデータ) (2025-08-27T16:28:15Z) - Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model [0.8747606955991707]
本稿では,セグメンテーションの精度とモーダル間のアライメントを向上させるために,アーキテクチャの改善を取り入れた視覚言語モデルを提案する。
SegVLMは多様なデータセットをまたいだ強力な一般化と表現シナリオの参照を示す。
論文 参考訳(メタデータ) (2025-05-25T17:42:53Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - A Simple Framework for Open-Vocabulary Zero-Shot Segmentation [50.58626342189163]
SimZSSはオープン語彙のZero-Shotセグメンテーションのためのフレームワークである。
テキストと言語知識の離散的な性質を利用して、字幕内の局所的な概念をピンポイントする。
SimZSSは,8つのベンチマークデータセットのうち7つについて,15分以内で最先端の結果を達成している。
論文 参考訳(メタデータ) (2024-06-23T11:57:08Z) - OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding [9.25233177676278]
OV-NeRFは、事前訓練されたビジョンと言語基盤モデルのポテンシャルを利用して、セマンティックフィールド学習を強化する。
提案手法は, Replica と ScanNet の mIoU 測定値において, 20.31% と 18.42% の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-02-07T08:19:57Z) - GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。