論文の概要: Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition
- arxiv url: http://arxiv.org/abs/2407.05814v1
- Date: Mon, 8 Jul 2024 10:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:00:10.816897
- Title: Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition
- Title(参考訳): 交通信号認識の強化のためのドメイン間Few-shot In-context Learning
- Authors: Yaozong Gan, Guang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: 交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
- 参考スコア(独自算出の注目度): 49.20086587208214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal large language models (MLLM) such as GPT-4o and GPT-4v have shown great potential in autonomous driving. In this paper, we propose a cross-domain few-shot in-context learning method based on the MLLM for enhancing traffic sign recognition (TSR). We first construct a traffic sign detection network based on Vision Transformer Adapter and an extraction module to extract traffic signs from the original road images. To reduce the dependence on training data and improve the performance stability of cross-country TSR, we introduce a cross-domain few-shot in-context learning method based on the MLLM. To enhance MLLM's fine-grained recognition ability of traffic signs, the proposed method generates corresponding description texts using template traffic signs. These description texts contain key information about the shape, color, and composition of traffic signs, which can stimulate the ability of MLLM to perceive fine-grained traffic sign categories. By using the description texts, our method reduces the cross-domain differences between template and real traffic signs. Our approach requires only simple and uniform textual indications, without the need for large-scale traffic sign images and labels. We perform comprehensive evaluations on the German traffic sign recognition benchmark dataset, the Belgium traffic sign dataset, and two real-world datasets taken from Japan. The experimental results show that our method significantly enhances the TSR performance.
- Abstract(参考訳): GPT-4o や GPT-4v のような最近の多モード大言語モデル (MLLM) は、自律運転において大きな可能性を示している。
本稿では,交通標識認識(TSR)の強化を目的としたMLLMに基づく,ドメイン間数発のコンテキスト内学習手法を提案する。
まず,視覚変換器を用いた交通標識検出ネットワークを構築し,道路画像から交通標識を抽出する抽出モジュールを構築した。
訓練データへの依存を減らし、クロスカントリーTSRの性能安定性を向上させるため、MLLMに基づくクロスドメイン・ショット・イン・コンテクスト学習手法を提案する。
MLLMの交通標識の微粒化認識能力を高めるため,テンプレートによる記述文を生成する。
これらの記述テキストには、交通標識の形状、色、構成に関する重要な情報が含まれており、細かな交通標識カテゴリを知覚するMLLMの能力を刺激することができる。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を減らすことができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
我々は,ドイツ交通標識認識ベンチマークデータセット,ベルギー交通標識データセット,および日本から取得した実世界の2つのデータセットについて総合的な評価を行った。
実験の結果,提案手法はTSR性能を著しく向上させることがわかった。
関連論文リスト
- Strada-LLM: Graph LLM for traffic prediction [62.2015839597764]
交通予測における大きな課題は、非常に異なる交通条件によって引き起こされる多様なデータ分散を扱うことである。
近位交通情報を考慮した交通予測のためのグラフ対応LLMを提案する。
我々は、新しいデータ分散に直面する際に、ドメイン適応を効率的にするための軽量なアプローチを採用する。
論文 参考訳(メタデータ) (2024-10-28T09:19:29Z) - TSCLIP: Robust CLIP Fine-Tuning for Worldwide Cross-Regional Traffic Sign Recognition [8.890563785528842]
交通標識認識の現在の手法は、従来のディープラーニングモデルに依存している。
コントラスト型言語画像事前学習モデルを用いた頑健な微調整手法TSCLIPを提案する。
著者の知る限り、TSCLIPは世界規模のクロスリージョン交通標識認識タスクに使用される最初のコントラスト言語画像モデルである。
論文 参考訳(メタデータ) (2024-09-23T14:51:26Z) - Think Twice Before Recognizing: Large Multimodal Models for General Fine-grained Traffic Sign Recognition [49.20086587208214]
我々は、微粒な交通標識認識(TSR)を改善するために認識する前に、思考と呼ばれる新しい戦略を提案する。
我々の戦略は、大型マルチモーダルモデル(LMM)の多重思考能力を刺激することで、有効な微粒化TSRを実現する。
論文 参考訳(メタデータ) (2024-09-03T02:08:47Z) - A Holistic Framework Towards Vision-based Traffic Signal Control with
Microscopic Simulation [53.39174966020085]
交通信号制御(TSC)は交通渋滞を低減し、交通の流れを円滑にし、アイドリング時間を短縮し、CO2排出量を減らすために重要である。
本研究では,道路交通の流れを視覚的観察によって調節するTSCのコンピュータビジョンアプローチについて検討する。
我々は、視覚ベースのTSCとそのベンチマークに向けて、TrafficDojoと呼ばれる総合的なトラフィックシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-11T16:42:29Z) - BjTT: A Large-scale Multimodal Dataset for Traffic Prediction [49.93028461584377]
従来の交通予測手法は、交通トレンドを予測するために、過去の交通データに依存している。
本研究では,交通システムを記述するテキストと生成モデルを組み合わせることで,交通生成にどのように応用できるかを考察する。
本稿では,テキスト・トラフィック生成のための最初の拡散モデルChatTrafficを提案する。
論文 参考訳(メタデータ) (2024-03-08T04:19:56Z) - Traffic Reconstruction and Analysis of Natural Driving Behaviors at
Unsignalized Intersections [1.7273380623090846]
この研究は、TNのメンフィスにある様々な無署名の交差点で、その日の異なる時間に交通を記録していた。
ビデオデータを手動でラベル付けして特定の変数をキャプチャした後,SUMOシミュレーション環境におけるトラフィックシナリオを再構築した。
これらのシミュレーションから得られた出力データは、車両移動の時間空間図、走行時間頻度分布、ボトルネック点を特定するための速度配置プロットなど、包括的な分析を提供する。
論文 参考訳(メタデータ) (2023-12-22T09:38:06Z) - Traffic Sign Recognition Using Local Vision Transformer [1.8416014644193066]
本稿では,交通信号認識のための畳み込み型ネットワークと変圧器型ネットワークの両利点を融合した新しいモデルを提案する。
提案モデルには、局所的相関をキャプチャする畳み込みブロックと、グローバルな依存関係を学習するトランスフォーマーベースのブロックが含まれる。
実験により, 局所性モジュールを用いたハイブリッドネットワークは, 純粋なトランスフォーマーモデルおよび最も優れた畳み込みネットワークよりも精度が高いことを示した。
論文 参考訳(メタデータ) (2023-11-11T19:42:41Z) - A Deeply Supervised Semantic Segmentation Method Based on GAN [9.441379867578332]
提案モデルは,GAN(Generative Adversarial Network)フレームワークを従来のセマンティックセグメンテーションモデルに統合する。
本手法の有効性は,道路ひび割れデータセットの性能向上によって実証された。
論文 参考訳(メタデータ) (2023-10-06T08:22:24Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。