論文の概要: Cross-domain Multi-step Thinking: Zero-shot Fine-grained Traffic Sign Recognition in the Wild
- arxiv url: http://arxiv.org/abs/2409.01534v2
- Date: Wed, 23 Jul 2025 08:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.658578
- Title: Cross-domain Multi-step Thinking: Zero-shot Fine-grained Traffic Sign Recognition in the Wild
- Title(参考訳): クロスドメイン多段階思考:野生におけるゼロショットきめ細かい交通信号認識
- Authors: Yaozong Gan, Guang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: クロスドメイン マルチステップシンキング (CdMT) は、野生におけるゼロショットきめ細かなトラフィックサイン認識(TSR)の性能を改善することを提案した。
CdMTはトレーニングデータとは独立であり、単純で均一な命令のみを必要とするため、クロスカントリーのTSRを実現することができる。
フレームワークは5つのデータセット上の他の最先端メソッドよりも優れたパフォーマンスを実現した。
- 参考スコア(独自算出の注目度): 49.20086587208214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we propose Cross-domain Multi-step Thinking (CdMT) to improve zero-shot fine-grained traffic sign recognition (TSR) performance in the wild. Zero-shot fine-grained TSR in the wild is challenging due to the cross-domain problem between clean template traffic signs and real-world counterparts, and existing approaches particularly struggle with cross-country TSR scenarios, where traffic signs typically differ between countries. The proposed CdMT framework tackles these challenges by leveraging the multi-step reasoning capabilities of large multimodal models (LMMs). We introduce context, characteristic, and differential descriptions to design multiple thinking processes for LMMs. Context descriptions, which are enhanced by center coordinate prompt optimization, enable the precise localization of target traffic signs in complex road images and filter irrelevant responses via novel prior traffic sign hypotheses. Characteristic descriptions, which are derived from in-context learning with template traffic signs, bridge cross-domain gaps and enhance fine-grained TSR. Differential descriptions refine the multimodal reasoning ability of LMMs by distinguishing subtle differences among similar signs. CdMT is independent of training data and requires only simple and uniform instructions, enabling it to achieve cross-country TSR. We conducted extensive experiments on three benchmark datasets and two real-world datasets from different countries. The proposed CdMT framework achieved superior performance compared with other state-of-the-art methods on all five datasets, with recognition accuracies of 0.93, 0.89, 0.97, 0.89, and 0.85 on the GTSRB, BTSD, TT-100K, Sapporo, and Yokohama datasets, respectively.
- Abstract(参考訳): 本研究では,クロスドメイン・マルチステップ・シンキング(CdMT)を提案する。
クリーンなテンプレートのトラフィックサインと現実世界のトラフィックサインのクロスドメイン問題、そして既存のアプローチでは、通常、国によってトラフィックサインが異なるクロスカントリーのTSRシナリオに特に苦労しているため、野生のゼロショットの微粒なTSRは難しい。
提案するCdMTフレームワークは,大規模マルチモーダルモデル(LMM)の多段階推論機能を活用することで,これらの課題に対処する。
LMMのための複数の思考プロセスを設計するために、文脈、特徴、微分記述を導入する。
コンテクスト記述は、センター座標のプロンプト最適化によって強化され、複雑な道路画像中のターゲット信号の正確な位置決めを可能にし、新しい先行信号仮説を介して無関係応答をフィルタリングする。
テンプレート・トラヒック・サインを用いたインコンテキスト・ラーニング,ブリッジ・クロスドメイン・ギャップ,微粒化TSRの強化などが特徴である。
差分記述は、類似の記号間の微妙な違いを区別することにより、LMMの多モード推論能力を洗練させる。
CdMTはトレーニングデータとは独立であり、単純で均一な命令のみを必要とするため、クロスカントリーのTSRを実現することができる。
各国の3つのベンチマークデータセットと2つの実世界のデータセットについて広範な実験を行った。
提案したCdMTフレームワークは, GTSRB, BTSD, TT-100K, サポロ, 横浜の各データセットの認識精度0.93, 0.89, 0.97, 0.89, 0.85の5つのデータセットに対して, 最先端の手法に比べて優れた性能を示した。
関連論文リスト
- Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - MM-Path: Multi-modal, Multi-granularity Path Representation Learning -- Extended Version [12.938987616850389]
マルチモーダル・マルチグラニュラリティパス表現学習フレームワーク(MM-Path)を提案する。
MM-Pathは道路経路と画像経路の両方からモダリティを統合することで、一般的な経路表現を学習することができる。
論文 参考訳(メタデータ) (2024-11-27T15:10:22Z) - Strada-LLM: Graph LLM for traffic prediction [62.2015839597764]
交通予測における大きな課題は、非常に異なる交通条件によって引き起こされる多様なデータ分散を扱うことである。
近位交通情報を考慮した交通予測のためのグラフ対応LLMを提案する。
我々は、新しいデータ分散に直面する際に、ドメイン適応を効率的にするための軽量なアプローチを採用する。
論文 参考訳(メタデータ) (2024-10-28T09:19:29Z) - Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition [49.20086587208214]
交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
論文 参考訳(メタデータ) (2024-07-08T10:51:03Z) - Revolutionizing Traffic Sign Recognition: Unveiling the Potential of Vision Transformers [0.0]
交通信号認識(TSR)は、運転支援システムや自動運転車において重要な役割を担っている。
本研究では、ベースラインモデルとしてビジョントランスフォーマー(PVT、TNT、LNL)と6つの畳み込みニューラルネットワーク(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)を探索する。
従来の手法の欠点に対処するため、新しいピラミッドEATFormerバックボーンを提案し、進化的アルゴリズム(EA)とTransformerアーキテクチャを組み合わせる。
論文 参考訳(メタデータ) (2024-04-29T19:18:52Z) - Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods [50.67996219968513]
本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。
入力空間の次元の2次パースタンスコストで精度よく近似的な再帰を実現する。
我々は,実世界の風速予測ケーススタディにおいて,オンラインMTL法と他の競技者との比較を行った。
論文 参考訳(メタデータ) (2023-08-03T01:41:34Z) - Short-term passenger flow prediction for multi-traffic modes: A residual
network and Transformer based multi-task learning method [21.13073816634534]
Res-Transformerは、複数交通モードの短期的乗客フロー予測のための学習モデルである。
モデルは北京の2つの大規模な実世界のデータセットで評価される。
本稿では,複数交通モードにおける短時間の乗客フロー予測について,重要な洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-27T01:09:19Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Physics-Informed Deep Learning for Traffic State Estimation [3.779860024918729]
交通状態推定(TSE)は、部分的に観測されたデータを用いて道路セグメント上の交通変数(例えば密度)を再構築する。
本論文では,少量の観測データを用いて高品質なTSEを効率的に実行するための物理情報深層学習(PIDL)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2021-01-17T03:28:32Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。