論文の概要: Segment-Anything Models Achieve Zero-shot Robustness in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2408.09839v1
- Date: Mon, 19 Aug 2024 09:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:54:42.547999
- Title: Segment-Anything Models Achieve Zero-shot Robustness in Autonomous Driving
- Title(参考訳): 自律走行におけるゼロショットロバスト性を実現するセグメント音響モデル
- Authors: Jun Yan, Pengyu Wang, Danni Wang, Weiquan Huang, Daniel Watzenig, Huilin Yin,
- Abstract要約: ここ数年、ディープラーニングは、畳み込みニューラルネットワーク(CNN)モデルから、膨大なパラメータを持つ基礎モデルへと徐々に移行してきた。
SAM( segment-anything model)は、様々な種類の画像を扱うことができ、特定のオブジェクトをトレーニングすることなく、画像内の任意のオブジェクトを認識し、セグメント化することができる。
実験結果から,ブラックボックスの破損やホワイトボックスの攻撃によるSAMのゼロショット対逆ロバスト性は,追加訓練を必要とせずとも許容できることがわかった。
- 参考スコア(独自算出の注目度): 4.609947459514934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation is a significant perception task in autonomous driving. It suffers from the risks of adversarial examples. In the past few years, deep learning has gradually transitioned from convolutional neural network (CNN) models with a relatively small number of parameters to foundation models with a huge number of parameters. The segment-anything model (SAM) is a generalized image segmentation framework that is capable of handling various types of images and is able to recognize and segment arbitrary objects in an image without the need to train on a specific object. It is a unified model that can handle diverse downstream tasks, including semantic segmentation, object detection, and tracking. In the task of semantic segmentation for autonomous driving, it is significant to study the zero-shot adversarial robustness of SAM. Therefore, we deliver a systematic empirical study on the robustness of SAM without additional training. Based on the experimental results, the zero-shot adversarial robustness of the SAM under the black-box corruptions and white-box adversarial attacks is acceptable, even without the need for additional training. The finding of this study is insightful in that the gigantic model parameters and huge amounts of training data lead to the phenomenon of emergence, which builds a guarantee of adversarial robustness. SAM is a vision foundation model that can be regarded as an early prototype of an artificial general intelligence (AGI) pipeline. In such a pipeline, a unified model can handle diverse tasks. Therefore, this research not only inspects the impact of vision foundation models on safe autonomous driving but also provides a perspective on developing trustworthy AGI. The code is available at: https://github.com/momo1986/robust_sam_iv.
- Abstract(参考訳): セマンティックセグメンテーションは自律運転において重要な認識課題である。
それは敵の例のリスクに悩まされる。
過去数年間、ディープラーニングは、比較的少数のパラメータを持つ畳み込みニューラルネットワーク(CNN)モデルから、膨大な数のパラメータを持つ基礎モデルへと徐々に移行してきた。
segment-anything Model (SAM) は、様々な種類の画像を扱うことができ、特定のオブジェクトを訓練することなく、画像内の任意のオブジェクトを認識し、セグメント化することができる一般化されたイメージセグメンテーションフレームワークである。
セマンティックセグメンテーション、オブジェクト検出、トラッキングなど、さまざまな下流タスクを処理できる統一モデルである。
自律運転におけるセマンティックセグメンテーションの課題として,SAMのゼロショット対逆ロバスト性を検討することが重要である。
そこで本研究では,SAMのロバスト性に関する系統的研究を行った。
実験結果から,ブラックボックスの破損やホワイトボックスの攻撃によるSAMのゼロショット対逆ロバスト性は,追加訓練を必要とせずとも許容できることがわかった。
この研究の発見は、巨大なモデルパラメータと大量のトレーニングデータが出現する現象を招き、敵対的堅牢性の保証を築き上げているという洞察に富んでいる。
SAMはビジョンファウンデーションモデルであり、人工知能(AGI)パイプラインの初期のプロトタイプと見なすことができる。
このようなパイプラインでは、統一モデルは多様なタスクを処理できる。
そこで本研究では,視覚基礎モデルが安全な自動運転に与える影響だけでなく,信頼性の高いAGIの開発にも展望を与えている。
コードは、https://github.com/momo1986/robust_sam_iv.comで入手できる。
関連論文リスト
- ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - Performance Evaluation of Segment Anything Model with Variational Prompting for Application to Non-Visible Spectrum Imagery [15.748043194987075]
この研究は、X線/赤外線モダリティに関心のあるオブジェクトのセグメンテーションにおけるセグメンション・任意のモデル機能を評価する。
提案手法は,ボックスプロンプトが与えられた場合,SAMはオブジェクトをX線モードで分割できるが,その性能は点プロンプトによって異なる。
このモダリティの低コントラストの性質を考えると、赤外線オブジェクトもポイントプロンプトでセグメント化することが困難である。
論文 参考訳(メタデータ) (2024-04-18T16:04:14Z) - Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping [14.958823096408175]
基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。
本稿では,そのような物体識別モデルの訓練に焦点をあてる。
このようなモデルをトレーニングするための主要な解決策は、遠心三重項損失(CTL)である。
論文 参考訳(メタデータ) (2024-04-09T13:01:26Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) [8.529233820032678]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。
本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。
我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文 参考訳(メタデータ) (2023-11-14T11:05:08Z) - Attack-SAM: Towards Attacking Segment Anything Model With Adversarial
Examples [68.5719552703438]
Segment Anything Model (SAM) は、様々なダウンストリームタスクにおける印象的なパフォーマンスのために、最近大きな注目を集めている。
深い視覚モデルは敵の例に弱いと広く認識されており、それはモデルを騙して知覚不能な摂動で間違った予測をする。
この研究は、SAMの攻撃方法に関する総合的な調査を敵対的な例で実施した最初のものである。
論文 参考訳(メタデータ) (2023-05-01T15:08:17Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Neurosymbolic hybrid approach to driver collision warning [64.02492460600905]
自律運転システムには2つの主要なアルゴリズムアプローチがある。
ディープラーニングだけでは、多くの分野で最先端の結果が得られています。
しかし、ディープラーニングモデルが機能しない場合、デバッグが非常に難しい場合もあります。
論文 参考訳(メタデータ) (2022-03-28T20:29:50Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。