論文の概要: AD-SAM: Fine-Tuning the Segment Anything Vision Foundation Model for Autonomous Driving Perception
- arxiv url: http://arxiv.org/abs/2510.27047v1
- Date: Thu, 30 Oct 2025 23:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.931774
- Title: AD-SAM: Fine-Tuning the Segment Anything Vision Foundation Model for Autonomous Driving Perception
- Title(参考訳): AD-SAM: 自律走行知覚のためのセグメンテーション型視覚基礎モデル
- Authors: Mario Camarena, Het Patel, Fatemeh Nazari, Evangelos Papalexakis, Mohamadhossein Noruzoliaee, Jia Chen,
- Abstract要約: 自律運転セグメンテーションモデル(Autonomous Driving Segment Anything Model、AD-SAM)は、自律運転における意味的セグメンテーションのための微調整された視覚基盤モデルである。
AD-SAMは、道路シーンの空間的および幾何学的複雑さに合わせて、二重エンコーダと変形可能なデコーダでSegment Anything Model (SAM)を拡張している。
実験の結果,AD-SAMはSAM,一般SAM(G-SAM),深層学習ベースライン(DeepLabV3)を上回るセグメンテーション精度を示した。
- 参考スコア(独自算出の注目度): 3.298091299319354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the Autonomous Driving Segment Anything Model (AD-SAM), a fine-tuned vision foundation model for semantic segmentation in autonomous driving (AD). AD-SAM extends the Segment Anything Model (SAM) with a dual-encoder and deformable decoder tailored to spatial and geometric complexity of road scenes. The dual-encoder produces multi-scale fused representations by combining global semantic context from SAM's pretrained Vision Transformer (ViT-H) with local spatial detail from a trainable convolutional deep learning backbone (i.e., ResNet-50). A deformable fusion module aligns heterogeneous features across scales and object geometries. The decoder performs progressive multi-stage refinement using deformable attention. Training is guided by a hybrid loss that integrates Focal, Dice, Lovasz-Softmax, and Surface losses, improving semantic class balance, boundary precision, and optimization stability. Experiments on the Cityscapes and Berkeley DeepDrive 100K (BDD100K) benchmarks show that AD-SAM surpasses SAM, Generalized SAM (G-SAM), and a deep learning baseline (DeepLabV3) in segmentation accuracy. It achieves 68.1 mean Intersection over Union (mIoU) on Cityscapes and 59.5 mIoU on BDD100K, outperforming SAM, G-SAM, and DeepLabV3 by margins of up to +22.9 and +19.2 mIoU in structured and diverse road scenes, respectively. AD-SAM demonstrates strong cross-domain generalization with a 0.87 retention score (vs. 0.76 for SAM), and faster, more stable learning dynamics, converging within 30-40 epochs, enjoying double the learning speed of benchmark models. It maintains 0.607 mIoU with only 1000 samples, suggesting data efficiency critical for reducing annotation costs. These results confirm that targeted architectural and optimization enhancements to foundation models enable reliable and scalable AD perception.
- Abstract(参考訳): 本稿では、自律運転における意味的セグメンテーションのための微調整された視覚基盤モデルであるAutonomous Driving Segment Anything Model(AD-SAM)を提案する。
AD-SAMは、道路シーンの空間的および幾何学的複雑さに合わせて、二重エンコーダと変形可能なデコーダでSegment Anything Model (SAM)を拡張している。
このデュアルエンコーダは、SAMの事前訓練された視覚変換器(ViT-H)のグローバルな意味コンテキストと、訓練可能な畳み込み深層学習バックボーン(ResNet-50)の局所的な空間的詳細を組み合わせることで、マルチスケールの融合表現を生成する。
変形可能な融合モジュールは、スケールとオブジェクトジオメトリをまたいだ不均一な特徴を整列する。
デコーダは、変形可能な注意力を用いてプログレッシブ多段精錬を行う。
トレーニングは、Focal、Dice、Lovasz-Softmax、Surfaceの損失を統合し、セマンティッククラスのバランスを改善し、境界精度を改善し、安定性を最適化するハイブリッドな損失によって導かれる。
CityscapesとBerkeley DeepDrive 100K(BDD100K)ベンチマークの実験では、AD-SAMがSAM、Generalized SAM(G-SAM)、Deep Learning Baseline(DeepLabV3)をセグメンテーション精度で上回っていることが示されている。
都市景観では68.1mIoU、BDD100Kでは59.5mIoU、SAM、G-SAM、DeepLabV3では最大で+22.9mIoU、および+19.2mIoUとなっている。
AD-SAMは0.87の保持スコア(SAMは0.76)で強いクロスドメインの一般化を示し、より高速でより安定した学習力学を示し、30~40時間で収束し、ベンチマークモデルの学習速度を2倍に向上させる。
0.607 mIoU を維持し、1000サンプルしか持たないため、アノテーションのコスト削減に重要なデータ効率を示唆している。
これらの結果は、基礎モデルに対するアーキテクチャと最適化の強化が、信頼性と拡張性のあるAD知覚を可能にすることを確認している。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - PAM: A Propagation-Based Model for Segmenting Any 3D Objects across Multi-Modal Medical Images [11.373941923130305]
PAM(Propagating Anything Model)は、境界ボックスやスケッチのような2Dプロンプトを使用して、医療画像ボリュームの完全な3Dセグメンテーションを作成するセグメンテーションアプローチである。
MedSAMやSegVolのような既存のモデルでは、44の医療データセットと様々な種類のオブジェクトに対して平均18.1%以上のダイス類似度係数(DSC)が向上した。
論文 参考訳(メタデータ) (2024-08-25T13:42:47Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding [40.40630116715132]
一般公開されたビジョンファウンデーションモデル(VFM)の展望は急速に拡大している。
我々は,VFMを効率よく統合したモデルにマージする簡単なレシピを導入し,その専門知識を吸収する。
本手法をSAMおよびCLIPに適用することにより,SAMとCLIPの機能を組み合わせた一元モデルであるSAM-CLIPを単一視覚変換器に適用する。
論文 参考訳(メタデータ) (2023-10-23T19:21:57Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。