論文の概要: VISAT: Benchmarking Adversarial and Distribution Shift Robustness in Traffic Sign Recognition with Visual Attributes
- arxiv url: http://arxiv.org/abs/2510.26833v1
- Date: Wed, 29 Oct 2025 18:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.857108
- Title: VISAT: Benchmarking Adversarial and Distribution Shift Robustness in Traffic Sign Recognition with Visual Attributes
- Title(参考訳): VISAT:視覚属性を用いた交通信号認識における逆・分布シフトロバスト性の評価
- Authors: Simon Yu, Peilin Yu, Hongbo Zheng, Huajie Shao, Han Zhao, Lui Sha,
- Abstract要約: 本稿では,視覚的属性のある交通標識認識タスクにおいて,モデルロバスト性を評価するための新しいオープンデータセットとベンチマークスイートを提案する。
当社のデータセットでは,敵攻撃と分散シフトに対する堅牢性をそれぞれ強調する2つのベンチマークを導入している。
本研究では,ResNet-152 と ViT-B/32 の2つの主要なバックボーンに着目し,ベースモデルと MTL モデルの比較を行った。
- 参考スコア(独自算出の注目度): 18.89029074477177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present VISAT, a novel open dataset and benchmarking suite for evaluating model robustness in the task of traffic sign recognition with the presence of visual attributes. Built upon the Mapillary Traffic Sign Dataset (MTSD), our dataset introduces two benchmarks that respectively emphasize robustness against adversarial attacks and distribution shifts. For our adversarial attack benchmark, we employ the state-of-the-art Projected Gradient Descent (PGD) method to generate adversarial inputs and evaluate their impact on popular models. Additionally, we investigate the effect of adversarial attacks on attribute-specific multi-task learning (MTL) networks, revealing spurious correlations among MTL tasks. The MTL networks leverage visual attributes (color, shape, symbol, and text) that we have created for each traffic sign in our dataset. For our distribution shift benchmark, we utilize ImageNet-C's realistic data corruption and natural variation techniques to perform evaluations on the robustness of both base and MTL models. Moreover, we further explore spurious correlations among MTL tasks through synthetic alterations of traffic sign colors using color quantization techniques. Our experiments focus on two major backbones, ResNet-152 and ViT-B/32, and compare the performance between base and MTL models. The VISAT dataset and benchmarking framework contribute to the understanding of model robustness for traffic sign recognition, shedding light on the challenges posed by adversarial attacks and distribution shifts. We believe this work will facilitate advancements in developing more robust models for real-world applications in autonomous driving and cyber-physical systems.
- Abstract(参考訳): 本稿では,視覚的属性の存在下での交通信号認識タスクにおいて,モデルロバスト性を評価するための新しいオープンデータセットとベンチマークスイートであるVISATを提案する。
我々のデータセットはMapillary Traffic Sign Dataset (MTSD)に基づいており、敵の攻撃や分散シフトに対する堅牢性をそれぞれ強調する2つのベンチマークを導入している。
敵攻撃ベンチマークでは、最新技術であるPGD(Projected Gradient Descent)法を用いて、敵の入力を生成し、それらの人気モデルへの影響を評価する。
さらに,属性特化マルチタスク学習(MTL)ネットワークに対する敵攻撃の影響について検討し,MTLタスク間の素早い相関関係を明らかにする。
MTLネットワークは、データセットの各トラフィックサインに対して生成した視覚属性(色、形、シンボル、テキスト)を活用する。
分散シフトベンチマークでは、ImageNet-Cのリアルなデータ破損と自然変動技術を用いて、ベースモデルとMTLモデルのロバスト性の評価を行う。
さらに,色量子化手法を用いて交通標識色を合成的に変化させることにより,MTLタスク間の素早い相関関係について検討する。
本研究では,ResNet-152 と ViT-B/32 の2つの主要なバックボーンに着目し,ベースモデルと MTL モデルの比較を行った。
VISATデータセットとベンチマークフレームワークは、トラフィックサイン認識のためのモデルロバストネスの理解に寄与し、敵の攻撃や分散シフトによって引き起こされる課題に光を当てている。
この取り組みは、自動運転やサイバー物理システムにおける現実の応用のための、より堅牢なモデルの開発を促進するだろう。
関連論文リスト
- Domain Generalized Stereo Matching with Uncertainty-guided Data Augmentation [11.938635624781313]
State-of-the-art stereo matching (SM)モデルはドメインの違いにより実際のデータドメインに一般化できないことが多い。
データ拡張を活用してトレーニングドメインを拡張し、堅牢なクロスドメイン特徴表現を取得するようモデルに促します。
私たちのアプローチはシンプルでアーキテクチャに依存しないもので、任意のSMネットワークに統合することができます。
論文 参考訳(メタデータ) (2025-08-02T10:26:53Z) - Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision [2.0720154517628417]
オープン語彙検出とクロスモーダル学習を組み合わせた新しいフレームワークを提案する。
交通信号検出のために,NanoVerse YOLOモデルは視覚言語パス集約ネットワーク(RepVL-PAN)とSPD-Convモジュールを統合している。
交通標識分類のための交通信号認識マルチモーダルコントラスト学習モデル(TSR-MCL)を設計した。
TT100Kデータセットでは,全クラス認識のためのロングテール検出タスクにおいて,最先端の78.4%mAPを実現する。
論文 参考訳(メタデータ) (2025-07-31T08:23:30Z) - Modeling IoT Traffic Patterns: Insights from a Statistical Analysis of an MTC Dataset [1.2289361708127877]
IoT(Internet-of-Things)は急速に拡大し、多くのデバイスを接続し、私たちの日常生活に不可欠なものになっています。
効果的なIoTトラフィック管理には、マシン型通信(MTC)のモデリングと予測が必要である。
我々は、Kolmogorov-Smirnov、Anderson-Darling、chi-squared、ルート平均二乗誤差などの確立されたテストを含む、適合性テストを用いたMCCトラフィックの包括的統計分析を行う。
論文 参考訳(メタデータ) (2024-09-03T14:24:18Z) - Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition [49.20086587208214]
交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
論文 参考訳(メタデータ) (2024-07-08T10:51:03Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Fusing Pseudo Labels with Weak Supervision for Dynamic Traffic Scenarios [0.0]
我々は、異種データセットで訓練されたオブジェクト検出モデルから擬似ラベルをアマルガメートする弱い教師付きラベル統一パイプラインを導入する。
我々のパイプラインは、異なるデータセットからのラベルの集約、バイアスの修正、一般化の強化を通じて、統一されたラベル空間をエンゲージする。
我々は,統合ラベル空間を用いた単独物体検出モデルを再学習し,動的交通シナリオに精通した弾力性のあるモデルを構築した。
論文 参考訳(メタデータ) (2023-08-30T11:33:07Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。