論文の概要: Seeing Roads Through Words: A Language-Guided Framework for RGB-T Driving Scene Segmentation
- arxiv url: http://arxiv.org/abs/2602.07343v1
- Date: Sat, 07 Feb 2026 03:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.577806
- Title: Seeing Roads Through Words: A Language-Guided Framework for RGB-T Driving Scene Segmentation
- Title(参考訳): 単語を通して道路を見る:RGB-T駆動シーンセグメンテーションのための言語ガイドフレームワーク
- Authors: Ruturaj Reddy, Hrishav Bakul Barua, Junn Yong Loo, Thanh Thi Nguyen, Ganesh Krishnasamy,
- Abstract要約: RGB-熱融合(RGB-Thermal fusion)は標準的な手法であるが、既存の手法では全ての条件に対して均一に静的融合戦略を適用する。
本稿では,その融合戦略を検出されたシーン条件に動的に適応させるCLARITYを提案する。
MFNetデータセットの実験は、CLARITYが新しい最先端(SOTA)を確立することを実証している。
- 参考スコア(独自算出の注目度): 5.030754278104693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust semantic segmentation of road scenes under adverse illumination, lighting, and shadow conditions remain a core challenge for autonomous driving applications. RGB-Thermal fusion is a standard approach, yet existing methods apply static fusion strategies uniformly across all conditions, allowing modality-specific noise to propagate throughout the network. Hence, we propose CLARITY that dynamically adapts its fusion strategy to the detected scene condition. Guided by vision-language model (VLM) priors, the network learns to modulate each modality's contribution based on the illumination state while leveraging object embeddings for segmentation, rather than applying a fixed fusion policy. We further introduce two mechanisms, i.e., one which preserves valid dark-object semantics that prior noise-suppression methods incorrectly discard, and a hierarchical decoder that enforces structural consistency across scales to sharpen boundaries on thin objects. Experiments on the MFNet dataset demonstrate that CLARITY establishes a new state-of-the-art (SOTA), achieving 62.3% mIoU and 77.5% mAcc.
- Abstract(参考訳): 照明、照明、シャドウ条件下での道路シーンのロバストなセマンティックセマンティックセマンティックセマンティクスは、自動運転アプリケーションにとって重要な課題である。
RGB-熱融合(RGB-Thermal fusion)は標準的な手法であるが、既存の手法では全ての条件に対して均一に静的融合戦略を適用し、ネットワーク全体に変調特異的ノイズが伝播する。
そこで我々は,その融合戦略を検出されたシーン条件に動的に適応させるCLARITYを提案する。
ビジョン言語モデル (VLM) によって導かれるネットワークは、固定融合ポリシーを適用するのではなく、セグメンテーションのためのオブジェクト埋め込みを活用しながら、照明状態に基づいて各モダリティの寄与を変調することを学ぶ。
さらに、従来のノイズ抑圧手法が誤って破棄されたという有効な暗物意味を保存できるメカニズムと、スケール全体にわたって構造的一貫性を強制し、薄い物体の境界を鋭くする階層的デコーダの2つを導入する。
MFNetデータセットの実験では、CLARITYが新しい最先端(SOTA)を確立し、62.3% mIoUと77.5% mAccを達成した。
関連論文リスト
- Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - Semantic-Enhanced Cross-Modal Place Recognition for Robust Robot Localization [1.2031796234206136]
我々はSemantic-Enhanced Cross-Modal Place Recognition (SCM-PR)と呼ぶフレームワークを導入する。
SCM-PRは、RGB画像を利用した高レベルセマンティクスを組み合わせることで、LiDARマップのロバストなローカライゼーションを実現する。
KITTIとKITTI-360データセットに関する実験研究は、SCM-PRが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-16T19:17:54Z) - RUN: Reversible Unfolding Network for Concealed Object Segmentation [61.13528324971598]
マスクドメインとRGBドメインの両方にわたる可逆戦略。
マスクとRGBドメインをまたいだ可逆的戦略を適用したReversible Unfolding Network (RUN)を提案する。
論文 参考訳(メタデータ) (2025-01-30T22:19:15Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。