論文の概要: Think Twice Before Recognizing: Large Multimodal Models for General Fine-grained Traffic Sign Recognition
- arxiv url: http://arxiv.org/abs/2409.01534v1
- Date: Tue, 3 Sep 2024 02:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:21:06.688939
- Title: Think Twice Before Recognizing: Large Multimodal Models for General Fine-grained Traffic Sign Recognition
- Title(参考訳): 認識する前に考える: 交通信号認識のための大規模マルチモーダルモデル
- Authors: Yaozong Gan, Guang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: 我々は、微粒な交通標識認識(TSR)を改善するために認識する前に、思考と呼ばれる新しい戦略を提案する。
我々の戦略は、大型マルチモーダルモデル(LMM)の多重思考能力を刺激することで、有効な微粒化TSRを実現する。
- 参考スコア(独自算出の注目度): 49.20086587208214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new strategy called think twice before recognizing to improve fine-grained traffic sign recognition (TSR). Fine-grained TSR in the wild is difficult due to the complex road conditions, and existing approaches particularly struggle with cross-country TSR when data is lacking. Our strategy achieves effective fine-grained TSR by stimulating the multiple-thinking capability of large multimodal models (LMM). We introduce context, characteristic, and differential descriptions to design multiple thinking processes for the LMM. The context descriptions with center coordinate prompt optimization help the LMM to locate the target traffic sign in the original road images containing multiple traffic signs and filter irrelevant answers through the proposed prior traffic sign hypothesis. The characteristic description is based on few-shot in-context learning of template traffic signs, which decreases the cross-domain difference and enhances the fine-grained recognition capability of the LMM. The differential descriptions of similar traffic signs optimize the multimodal thinking capability of the LMM. The proposed method is independent of training data and requires only simple and uniform instructions. We conducted extensive experiments on three benchmark datasets and two real-world datasets from different countries, and the proposed method achieves state-of-the-art TSR results on all five datasets.
- Abstract(参考訳): 本稿では,微粒な交通標識認識(TSR)を改善するために認識する前に,思考と呼ばれる新たな戦略を提案する。
複雑な道路条件のため、野生の微粒なTSRは困難であり、既存のアプローチではデータが不足している場合、特にクロスカントリーなTSRに苦しむ。
我々の戦略は、大規模マルチモーダルモデル(LMM)の多重思考能力を刺激することにより、有効な微粒化TSRを実現する。
LMMのための複数の思考プロセスを設計するために、文脈、特徴、微分記述を導入する。
中心座標のプロンプト最適化によるコンテキスト記述は、LMMが複数の交通標識を含む元の道路画像中の目標交通標識を見つけ出し、提案した先行交通標識仮説を通じて無関係な回答をフィルタリングするのに役立つ。
特徴的記述はテンプレートトラヒックのテキスト内学習に基づいており、これによりドメイン間の差が小さくなり、LMMの微粒化認識能力が向上する。
類似の交通標識の差分記述は、LMMのマルチモーダル思考能力を最適化する。
提案手法はトレーニングデータとは独立であり,単純かつ均一な命令のみを必要とする。
各国の3つのベンチマークデータセットと2つの実世界のデータセットについて広範な実験を行い、提案手法は5つのデータセットすべてに対して最先端のTSR結果を得る。
関連論文リスト
- Strada-LLM: Graph LLM for traffic prediction [62.2015839597764]
交通予測における大きな課題は、非常に異なる交通条件によって引き起こされる多様なデータ分散を扱うことである。
近位交通情報を考慮した交通予測のためのグラフ対応LLMを提案する。
我々は、新しいデータ分散に直面する際に、ドメイン適応を効率的にするための軽量なアプローチを採用する。
論文 参考訳(メタデータ) (2024-10-28T09:19:29Z) - Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition [49.20086587208214]
交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
論文 参考訳(メタデータ) (2024-07-08T10:51:03Z) - Revolutionizing Traffic Sign Recognition: Unveiling the Potential of Vision Transformers [0.0]
交通信号認識(TSR)は、運転支援システムや自動運転車において重要な役割を担っている。
本研究では、ベースラインモデルとしてビジョントランスフォーマー(PVT、TNT、LNL)と6つの畳み込みニューラルネットワーク(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)を探索する。
従来の手法の欠点に対処するため、新しいピラミッドEATFormerバックボーンを提案し、進化的アルゴリズム(EA)とTransformerアーキテクチャを組み合わせる。
論文 参考訳(メタデータ) (2024-04-29T19:18:52Z) - Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods [50.67996219968513]
本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。
入力空間の次元の2次パースタンスコストで精度よく近似的な再帰を実現する。
我々は,実世界の風速予測ケーススタディにおいて,オンラインMTL法と他の競技者との比較を行った。
論文 参考訳(メタデータ) (2023-08-03T01:41:34Z) - Short-term passenger flow prediction for multi-traffic modes: A residual
network and Transformer based multi-task learning method [21.13073816634534]
Res-Transformerは、複数交通モードの短期的乗客フロー予測のための学習モデルである。
モデルは北京の2つの大規模な実世界のデータセットで評価される。
本稿では,複数交通モードにおける短時間の乗客フロー予測について,重要な洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-27T01:09:19Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Physics-Informed Deep Learning for Traffic State Estimation [3.779860024918729]
交通状態推定(TSE)は、部分的に観測されたデータを用いて道路セグメント上の交通変数(例えば密度)を再構築する。
本論文では,少量の観測データを用いて高品質なTSEを効率的に実行するための物理情報深層学習(PIDL)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2021-01-17T03:28:32Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。