論文の概要: Vision-Language Feature Alignment for Road Anomaly Segmentation
- arxiv url: http://arxiv.org/abs/2603.01029v1
- Date: Sun, 01 Mar 2026 10:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.471541
- Title: Vision-Language Feature Alignment for Road Anomaly Segmentation
- Title(参考訳): 道路異常セグメンテーションのための視覚言語特徴アライメント
- Authors: Zhuolin He, Jiacheng Tang, Jian Pu, Xiangyang Xue,
- Abstract要約: 本稿では,事前学習された視覚言語モデル(VLM)のセマンティクスを組み込んだ視覚言語異常セグメンテーションフレームワークを提案する。
具体的には,Mask2Formeの視覚的特徴を既知のカテゴリのCLIPテキスト埋め込みに適応させる,素早い学習駆動アライメントモジュールを設計する。
推論時に,テキスト誘導類似性,CLIPに基づく画像テキスト類似性,検出信頼度を統合したマルチソース推論戦略を導入する。
- 参考スコア(独自算出の注目度): 38.2615882515309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe autonomous systems in complex environments require robust road anomaly segmentation to identify unknown obstacles. However, existing approaches often rely on pixel-level statistics to determine whether a region appears anomalous. This reliance leads to high false-positive rates on semantically normal background regions such as sky or vegetation, and poor recall of true Out-of-distribution (OOD) instances, thereby posing safety risks for robotic perception and decision-making. To address these challenges, we propose VL-Anomaly, a vision-language anomaly segmentation framework that incorporates semantic priors from pre-trained Vision-Language Models (VLMs). Specifically, we design a prompt learning-driven alignment module that adapts Mask2Forme's visual features to CLIP text embeddings of known categories, effectively suppressing spurious anomaly responses in background regions. At inference time, we further introduce a multi-source inference strategy that integrates text-guided similarity, CLIP-based image-text similarity and detector confidence, enabling more reliable anomaly prediction by leveraging complementary information sources. Extensive experiments demonstrate that VL-Anomaly achieves state-of-the-art performance on benchmark datasets including RoadAnomaly, SMIYC and Fishyscapes.Code is released on https://github.com/NickHezhuolin/VL-aligner-Road-anomaly-segment.
- Abstract(参考訳): 複雑な環境における安全な自律システムは、未知の障害物を特定するために、堅牢な道路異常セグメンテーションを必要とする。
しかし、既存のアプローチはしばしば、ある領域が異常に見えるかどうかを決定するためにピクセルレベルの統計に依存する。
この依存は、空や植生のような意味論的に通常の背景領域に対して高い偽陽性率をもたらし、真のアウト・オブ・ディストリビューション(OOD)インスタンスのリコールが乏しいことから、ロボットの知覚と意思決定に対する安全性のリスクが生じる。
これらの課題に対処するために,VL-Anomalyを提案する。VL-Anomalyは,事前学習された視覚言語モデル(VLM)のセマンティクスを組み込んだ視覚言語アノマリーセグメンテーションフレームワークである。
具体的には,Mask2Formeの視覚的特徴を既知のカテゴリのCLIPテキスト埋め込みに適応させ,背景領域の急激な異常応答を効果的に抑制する,素早い学習駆動アライメントモジュールを設計する。
推測時には、テキスト誘導類似性、CLIPに基づく画像テキスト類似性、および検出信頼度を統合したマルチソース推論戦略を導入し、補完的な情報ソースを活用することにより、より信頼性の高い異常予測を可能にする。
大規模な実験により、VL-Anomalyは、RoadAnomaly、SMIYC、Fishyscapesなどのベンチマークデータセットで最先端のパフォーマンスを達成している。コードはhttps://github.com/NickHezhuolin/VL-aligner-Road-anomaly-segmentでリリースされている。
関連論文リスト
- Semantically Aware UAV Landing Site Assessment from Remote Sensing Imagery via Multimodal Large Language Models [5.987458168544856]
安全UAV緊急着陸には、従来の幾何学的センサーに見えない複雑なセマンティックなリスクを理解する必要がある。
本稿では,リモートセンシング(RS)画像とマルチモーダル大規模言語モデル(MLLM)を併用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T11:30:03Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Segmenting Objectiveness and Task-awareness Unknown Region for Autonomous Driving [46.70405993442064]
本稿では,自律走行シーンのためのセグメンティング・オブジェクトネスとタスク・アウェアネス(SOTA)という新しいフレームワークを提案する。
SOTAは、セマンティック・フュージョン・ブロック(SFB)を通じて目的のセグメンテーションを強化し、道路ナビゲーションタスクに関係のない異常をフィルタリングする。
論文 参考訳(メタデータ) (2025-04-27T10:08:54Z) - Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety [0.0]
視覚言語推論とゼロショットオブジェクト検出を統合したマルチモーダル手法を提案する。
予測ハザードとバウンディングボックスアノテーションを一致させるために,OpenAIのCLIPモデルを取り入れたオブジェクト検出を改良する。
その結果,現在の視覚言語に基づくアプローチの長所と短所が明らかになった。
論文 参考訳(メタデータ) (2025-04-18T01:25:02Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。
また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。
得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-25T20:12:10Z) - Applying Unsupervised Semantic Segmentation to High-Resolution UAV Imagery for Enhanced Road Scene Parsing [12.558144256470827]
新規な教師なし道路解析フレームワークについて紹介する。
提案手法は,手動のアノテーションを使わずに,開発データセット上で89.96%のmIoUの平均インターセクションを実現する。
論文 参考訳(メタデータ) (2024-02-05T13:16:12Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。