論文の概要: Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark
- arxiv url: http://arxiv.org/abs/2508.04260v1
- Date: Wed, 06 Aug 2025 09:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.661573
- Title: Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark
- Title(参考訳): Segment Any Vehicle: セマンティックでビジュアルなコンテキスト駆動SAMとベンチマーク
- Authors: Xiao Wang, Ziwen Wang, Wentao Wu, Anjie Wang, Jiashu Wu, Yantao Pan, Chenglong Li,
- Abstract要約: SAMベースのエンコーダデコーダ,車両部品知識グラフ,コンテキストサンプル検索符号化モジュールの3つのコアコンポーネントからなる新しいフレームワークであるSAVを提案する。
知識グラフは、構造オントロジーを通じて車両部品間の空間的および幾何学的関係を明示的にモデル化し、事前構造的知識を効果的に符号化する。
我々は,11,665の高品質なピクセルレベルのアノテーションを含む自動車部品セグメンテーションのための大規模ベンチマークデータセット,VabySeg10Kを紹介した。
- 参考スコア(独自算出の注目度): 12.231630639022335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of autonomous driving, vehicle perception, particularly detection and segmentation, has placed increasingly higher demands on algorithmic performance. Pre-trained large segmentation models, especially Segment Anything Model (SAM), have sparked significant interest and inspired new research directions in artificial intelligence. However, SAM cannot be directly applied to the fine-grained task of vehicle part segmentation, as its text-prompted segmentation functionality is not publicly accessible, and the mask regions generated by its default mode lack semantic labels, limiting its utility in structured, category-specific segmentation tasks. To address these limitations, we propose SAV, a novel framework comprising three core components: a SAM-based encoder-decoder, a vehicle part knowledge graph, and a context sample retrieval encoding module. The knowledge graph explicitly models the spatial and geometric relationships among vehicle parts through a structured ontology, effectively encoding prior structural knowledge. Meanwhile, the context retrieval module enhances segmentation by identifying and leveraging visually similar vehicle instances from training data, providing rich contextual priors for improved generalization. Furthermore, we introduce a new large-scale benchmark dataset for vehicle part segmentation, named VehicleSeg10K, which contains 11,665 high-quality pixel-level annotations across diverse scenes and viewpoints. We conduct comprehensive experiments on this dataset and two other datasets, benchmarking multiple representative baselines to establish a solid foundation for future research and comparison. % Both the dataset and source code of this paper will be released upon acceptance. Both the dataset and source code of this paper will be released on https://github.com/Event-AHU/SAV
- Abstract(参考訳): 自動運転車の急速な進歩に伴い、車両の認識、特に検出とセグメンテーションは、アルゴリズムのパフォーマンスに対する要求をますます高めている。
事前訓練された大規模なセグメンテーションモデル、特にSegment Anything Model(SAM)は、大きな関心を呼び、人工知能の新しい研究方向を刺激した。
しかし、SAMはテキストプロップされたセグメンテーション機能が公開されていないため、車両部分セグメンテーションのきめ細かいタスクには直接適用できない。
これらの制約に対処するため、SAMベースのエンコーダデコーダ、車両部品知識グラフ、コンテキストサンプル検索符号化モジュールの3つのコアコンポーネントからなる新しいフレームワークであるSAVを提案する。
知識グラフは、構造オントロジーを通じて車両部品間の空間的および幾何学的関係を明示的にモデル化し、事前構造的知識を効果的に符号化する。
一方、コンテキスト検索モジュールは、視覚的に類似した車両インスタンスをトレーニングデータから識別し活用することによりセグメンテーションを強化し、一般化を改善するためのリッチなコンテキスト優先を提供する。
さらに,車両部分分割のための大規模ベンチマークデータセットであるVabySeg10Kを導入する。
このデータセットと他の2つのデータセットに関する包括的な実験を行い、複数の代表的ベースラインをベンチマークして、将来の研究と比較のための確かな基盤を確立します。
% この論文のデータセットとソースコードはどちらも受け入れ次第リリースされます。
本論文のデータセットとソースコードは、https://github.com/Event-AHU/SAVで公開される。
関連論文リスト
- RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。
多様な視覚的目標を認識し、位置を特定する能力を持つべきである。
いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文 参考訳(メタデータ) (2025-05-23T15:27:57Z) - Few-shot Structure-Informed Machinery Part Segmentation with Foundation Models and Graph Neural Networks [1.5293427903448022]
本稿では,空間的および階層的な関係を示す複数の部分を持つ機械に対して,少数ショットのセマンティックセマンティックセマンティックセマンティクスを提案する。
提案手法は,基礎モデルであるCLIPSegとSegment Anything Model(SAM)を,関心点検出器SuperPointとGCN(Graph Convolutional Network)と統合し,機械部品を正確に分割する。
本モデルは,トラック搭載の積載クレーンを表現した純粋に合成したデータセットを用いて評価し,様々な詳細レベルにわたって効果的セグメンテーションを実現する。
論文 参考訳(メタデータ) (2025-01-17T09:55:05Z) - SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object
and Boundary Constraints [9.238103649037951]
本稿では,SAM生成オブジェクト(SGO)とSAM生成境界(SGB)という2つの新しい概念を活用することにより,SAMの生出力を活用するフレームワークを提案する。
本稿では,SGOのコンテンツ特性を考慮し,セマンティックな情報を持たないセグメンテーション領域を活用するために,オブジェクト整合性の概念を導入する。
境界損失は、モデルが対象の境界情報に注意を向けることによって、SGBの特徴的な特徴に重きを置いている。
論文 参考訳(メタデータ) (2023-12-05T03:33:47Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - SegmentMeIfYouCan: A Benchmark for Anomaly Segmentation [111.61261419566908]
ディープニューラルネットワーク(DNN)は通常、閉集合のセマンティッククラスで訓練される。
未発見のオブジェクトを扱うには不備だ。
このような物体の検出と局在化は、自動運転の認識などの安全クリティカルなアプリケーションに不可欠です。
論文 参考訳(メタデータ) (2021-04-30T07:58:19Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z) - Monocular Instance Motion Segmentation for Autonomous Driving: KITTI
InstanceMotSeg Dataset and Multi-task Baseline [5.000331633798637]
オブジェクトのセグメンテーションは、クラス非依存の方法でオブジェクトをセグメンテーションするために使用できるため、自動運転車にとって重要なタスクである。
自律走行の文献ではピクセル単位の運動セグメンテーションが研究されているが、インスタンスレベルではめったに研究されていない。
我々は、KITTIMoSegデータセットを改善した12.9Kサンプルからなる新しいInstanceMotSegデータセットを作成します。
論文 参考訳(メタデータ) (2020-08-16T21:47:09Z) - Semantic Segmentation With Multi Scale Spatial Attention For Self
Driving Cars [2.7317088388886384]
本稿では,様々なスケールのマルチスケール特徴融合を用いた新しいニューラルネットワークを提案し,その精度と効率的なセマンティックイメージセグメンテーションを提案する。
我々は、ResNetベースの特徴抽出器、ダウンサンプリング部における拡張畳み込み層、アップサンプリング部におけるアトラス畳み込み層を使用し、コンキャット操作を用いてそれらをマージした。
より文脈的な情報をエンコードし、ネットワークの受容領域を強化するため、新しいアテンションモジュールが提案されている。
論文 参考訳(メタデータ) (2020-06-30T20:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。