論文の概要: TSCLIP: Robust CLIP Fine-Tuning for Worldwide Cross-Regional Traffic Sign Recognition
- arxiv url: http://arxiv.org/abs/2409.15077v1
- Date: Mon, 23 Sep 2024 14:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:44:12.200993
- Title: TSCLIP: Robust CLIP Fine-Tuning for Worldwide Cross-Regional Traffic Sign Recognition
- Title(参考訳): TSCLIP:世界規模のクロスリージョン交通信号認識のためのロバストCLIPファインチューニング
- Authors: Guoyang Zhao, Fulong Ma, Weiqing Qi, Chenguang Zhang, Yuxuan Liu, Ming Liu, Jun Ma,
- Abstract要約: 交通標識認識の現在の手法は、従来のディープラーニングモデルに依存している。
コントラスト型言語画像事前学習モデルを用いた頑健な微調整手法TSCLIPを提案する。
著者の知る限り、TSCLIPは世界規模のクロスリージョン交通標識認識タスクに使用される最初のコントラスト言語画像モデルである。
- 参考スコア(独自算出の注目度): 8.890563785528842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic sign is a critical map feature for navigation and traffic control. Nevertheless, current methods for traffic sign recognition rely on traditional deep learning models, which typically suffer from significant performance degradation considering the variations in data distribution across different regions. In this paper, we propose TSCLIP, a robust fine-tuning approach with the contrastive language-image pre-training (CLIP) model for worldwide cross-regional traffic sign recognition. We first curate a cross-regional traffic sign benchmark dataset by combining data from ten different sources. Then, we propose a prompt engineering scheme tailored to the characteristics of traffic signs, which involves specific scene descriptions and corresponding rules to generate targeted text descriptions for optimizing the model training process. During the TSCLIP fine-tuning process, we implement adaptive dynamic weight ensembling (ADWE) to seamlessly incorporate outcomes from each training iteration with the zero-shot CLIP model. This approach ensures that the model retains its ability to generalize while acquiring new knowledge about traffic signs. Our method surpasses conventional classification benchmark models in cross-regional traffic sign evaluations, and it achieves state-of-the-art performance compared to existing CLIP fine-tuning techniques. To the best knowledge of authors, TSCLIP is the first contrastive language-image model used for the worldwide cross-regional traffic sign recognition task. The project website is available at: https://github.com/guoyangzhao/TSCLIP.
- Abstract(参考訳): 交通標識はナビゲーションと交通制御にとって重要な地図機能である。
それにもかかわらず、現在の信号認識の方法は従来のディープラーニングモデルに依存しており、異なる領域にわたるデータの分散の変化を考慮すると、通常、大きなパフォーマンス劣化に悩まされる。
本稿では,グローバルなクロスリージョン交通信号認識のための言語画像事前学習(CLIP)モデルを用いた頑健な微調整手法TSCLIPを提案する。
10の異なるソースからのデータを組み合わせることで、まずクロスリージョンのトラフィックサインベンチマークデータセットをキュレートする。
そこで,本研究では,特定のシーン記述とそれに対応するルールを伴って,モデル学習過程を最適化するためのターゲットテキスト記述を生成する,交通標識の特性に合わせたプロンプトエンジニアリング手法を提案する。
TSCLIPの微調整過程において,0ショットCLIPモデルを用いて各トレーニングイテレーションの結果をシームレスに組み込む適応動的ウェイトアンサンブル(ADWE)を実装した。
このアプローチは、交通標識に関する新しい知識を取得しながら、モデルを一般化する能力を維持する。
提案手法は、地域間交通標識評価における従来の分類基準モデルを超え、既存のCLIPファインチューニング手法と比較して最先端の性能を実現する。
著者の知る限り、TSCLIPは世界規模のクロスリージョン交通標識認識タスクに使用される最初のコントラスト言語画像モデルである。
プロジェクトのWebサイトは、https://github.com/guoyangzhao/TSCLIPで公開されている。
関連論文リスト
- Think Twice Before Recognizing: Large Multimodal Models for General Fine-grained Traffic Sign Recognition [49.20086587208214]
我々は、微粒な交通標識認識(TSR)を改善するために認識する前に、思考と呼ばれる新しい戦略を提案する。
我々の戦略は、大型マルチモーダルモデル(LMM)の多重思考能力を刺激することで、有効な微粒化TSRを実現する。
論文 参考訳(メタデータ) (2024-09-03T02:08:47Z) - Towards a Transformer-Based Pre-trained Model for IoT Traffic Classification [0.6060461053918144]
最先端の分類法はDeep Learningに基づいている。
実際の状況では、IoTトラフィックデータが不足しているため、モデルのパフォーマンスはそれほど良くない。
大規模なラベル付きトランスフォーマーベースのIoTトラフィックデータセット上で事前トレーニングされたIoTトラフィック分類変換器(ITCT)を提案する。
実験の結果、ITCTモデルは既存のモデルよりも大幅に優れ、全体的な精度は82%に達した。
論文 参考訳(メタデータ) (2024-07-26T19:13:11Z) - Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition [49.20086587208214]
交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
論文 参考訳(メタデータ) (2024-07-08T10:51:03Z) - A Holistic Framework Towards Vision-based Traffic Signal Control with
Microscopic Simulation [53.39174966020085]
交通信号制御(TSC)は交通渋滞を低減し、交通の流れを円滑にし、アイドリング時間を短縮し、CO2排出量を減らすために重要である。
本研究では,道路交通の流れを視覚的観察によって調節するTSCのコンピュータビジョンアプローチについて検討する。
我々は、視覚ベースのTSCとそのベンチマークに向けて、TrafficDojoと呼ばれる総合的なトラフィックシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-11T16:42:29Z) - Traffic Sign Recognition Using Local Vision Transformer [1.8416014644193066]
本稿では,交通信号認識のための畳み込み型ネットワークと変圧器型ネットワークの両利点を融合した新しいモデルを提案する。
提案モデルには、局所的相関をキャプチャする畳み込みブロックと、グローバルな依存関係を学習するトランスフォーマーベースのブロックが含まれる。
実験により, 局所性モジュールを用いたハイブリッドネットワークは, 純粋なトランスフォーマーモデルおよび最も優れた畳み込みネットワークよりも精度が高いことを示した。
論文 参考訳(メタデータ) (2023-11-11T19:42:41Z) - A Deeply Supervised Semantic Segmentation Method Based on GAN [9.441379867578332]
提案モデルは,GAN(Generative Adversarial Network)フレームワークを従来のセマンティックセグメンテーションモデルに統合する。
本手法の有効性は,道路ひび割れデータセットの性能向上によって実証された。
論文 参考訳(メタデータ) (2023-10-06T08:22:24Z) - Adaptive Hierarchical SpatioTemporal Network for Traffic Forecasting [70.66710698485745]
本稿では,AHSTN(Adaptive Hierarchical SpatioTemporal Network)を提案する。
AHSTNは空間階層を利用し、マルチスケール空間相関をモデル化する。
2つの実世界のデータセットの実験により、AHSTNはいくつかの強いベースラインよりも優れたパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T14:50:27Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。