論文の概要: SignRAG: A Retrieval-Augmented System for Scalable Zero-Shot Road Sign Recognition
- arxiv url: http://arxiv.org/abs/2512.12885v1
- Date: Sun, 14 Dec 2025 23:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.482445
- Title: SignRAG: A Retrieval-Augmented System for Scalable Zero-Shot Road Sign Recognition
- Title(参考訳): SignRAG: スケーラブルゼロショット道路標識認識のための検索拡張システム
- Authors: Minghao Zhu, Zhihao Zhang, Anmol Sidhu, Keith Redmill,
- Abstract要約: 本稿では,この課題に対処するため,新たなゼロショット認識フレームワークをRetrieval-Augmented Generationパラダイムに適用する。
本手法はオハイオ州MUTCDの303の規制標識の包括的セットで検証する。
実験の結果、理想的な参照画像では95.58%、現実の道路データでは82.45%の精度でフレームワークの有効性が示された。
- 参考スコア(独自算出の注目度): 3.9692145330341764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated road sign recognition is a critical task for intelligent transportation systems, but traditional deep learning methods struggle with the sheer number of sign classes and the impracticality of creating exhaustive labeled datasets. This paper introduces a novel zero-shot recognition framework that adapts the Retrieval-Augmented Generation (RAG) paradigm to address this challenge. Our method first uses a Vision Language Model (VLM) to generate a textual description of a sign from an input image. This description is used to retrieve a small set of the most relevant sign candidates from a vector database of reference designs. Subsequently, a Large Language Model (LLM) reasons over the retrieved candidates to make a final, fine-grained recognition. We validate this approach on a comprehensive set of 303 regulatory signs from the Ohio MUTCD. Experimental results demonstrate the framework's effectiveness, achieving 95.58% accuracy on ideal reference images and 82.45% on challenging real-world road data. This work demonstrates the viability of RAG-based architectures for creating scalable and accurate systems for road sign recognition without task-specific training.
- Abstract(参考訳): 道路標識の自動認識は、インテリジェントな交通システムにとって重要な課題であるが、従来のディープラーニング手法は、膨大な数の標識クラスと、徹底的なラベル付きデータセットを作成する非現実性に苦慮している。
本稿では,この課題に対処するために,新たなゼロショット認識フレームワークであるRetrieval-Augmented Generation(RAG)パラダイムを提案する。
提案手法はまず視覚言語モデル(VLM)を用いて入力画像から符号のテキスト記述を生成する。
この記述は、参照設計のベクトルデータベースから最も関連性の高い署名候補の小さなセットを取得するために使用される。
その後、検索された候補に対して、Large Language Model (LLM) が最終的、きめ細かな認識を行う理由となった。
本手法はオハイオ州MUTCDの303の規制標識の包括的セットで検証する。
実験の結果、理想的な参照画像では95.58%、現実の道路データでは82.45%の精度でフレームワークの有効性が示された。
この研究は、タスク固有のトレーニングを使わずに、道路標識認識のためのスケーラブルで正確なシステムを構築するためのRAGベースのアーキテクチャの実現可能性を示す。
関連論文リスト
- Pose-Based Sign Language Spotting via an End-to-End Encoder Architecture [0.4083182125683813]
本稿では,手話検索への第一歩として,問合せ手話ビデオの存在や欠如を検出するという課題に対処する。
中間光沢認識やテキストベースのマッチングに依存する従来の手法とは異なり、手話ビデオから抽出したポーズキーポイントを直接操作するエンドツーエンドモデルを提案する。
アーキテクチャでは,エンコーダのみのバックボーンとバイナリ分類ヘッドを用いて,クエリサインがターゲットシーケンス内に現れるかどうかを判定する。
論文 参考訳(メタデータ) (2025-12-09T15:49:23Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
IGTRはまず、$left langle condition,question,answerright rungle$ instruction tripletを考案し、文字属性のリッチで多様な記述を提供する。
IGTRは,これらの属性を質問応答により効果的に学習するために,軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - Sign Languague Recognition without frame-sequencing constraints: A proof
of concept on the Argentinian Sign Language [42.27617228521691]
本稿では,様々な特徴量に基づいてサブ分類器を結合した手話分類のための一般化確率モデルを提案する。
提案したモデルは、アルゼンチン手話データセットで97%の精度を達成した。
論文 参考訳(メタデータ) (2023-10-26T14:47:11Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Towards Zero-shot Sign Language Recognition [11.952300437658703]
本稿では,ゼロショット手話認識の問題に取り組む。
目標は、目に見えないシグネチャクラスのインスタンスを認識するために、シグネチャクラス上で学んだモデルを活用することだ。
論文 参考訳(メタデータ) (2022-01-15T19:26:36Z) - SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition [94.30084702921529]
手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識手法は、解釈可能性に欠ける可能性がある。
SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを導入する。
論文 参考訳(メタデータ) (2021-10-11T16:18:09Z) - Accelerating Road Sign Ground Truth Construction with Knowledge Graph
and Machine Learning [5.226306460380354]
道路標識の分類を効果的に行うために,知識グラフと機械学習アルゴリズムを用いた新しい手法を提案する。
アノテーションは、視覚属性を使用してRoad Sign Knowledge Graphをクエリし、VPEモデルによって提案される最も近いマッチング候補を受け取ることができる。
知識グラフのアプローチは手話検索スペースを98.9%削減できることを示す。
論文 参考訳(メタデータ) (2020-12-04T15:42:08Z) - Improving Road Signs Detection performance by Combining the Features of
Hough Transform and Texture [5.620334754517149]
現場に存在する道路標識の検出は、交通標識の検出と認識の主要な段階の1つである。
本稿では,アラビア語を含む道路標識検出の効率化を図った。
Hough Transform (RHT) は、円形と八角形の形状を検出するために用いられる。
論文 参考訳(メタデータ) (2020-10-13T15:09:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。