論文の概要: Zero-Shot Vehicle Model Recognition via Text-Based Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.18502v1
- Date: Tue, 21 Oct 2025 10:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.430377
- Title: Zero-Shot Vehicle Model Recognition via Text-Based Retrieval-Augmented Generation
- Title(参考訳): テキスト検索によるゼロショット車両モデル認識
- Authors: Wei-Chia Chang, Yan-Ann Chen,
- Abstract要約: 本稿では、ゼロショット認識をサポートするために、視覚言語モデル(VLM)とRetrieval-Augmented Generation(RAG)を統合するパイプラインを提案する。
VLMは、車両画像を記述属性に変換し、テキスト特徴のデータベースと比較する。
この設計は、大規模な再訓練を回避し、新しい車両のテキスト記述を追加することで、迅速な更新を可能にする。
- 参考スコア(独自算出の注目度): 1.2031796234206136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vehicle make and model recognition (VMMR) is an important task in intelligent transportation systems, but existing approaches struggle to adapt to newly released models. Contrastive Language-Image Pretraining (CLIP) provides strong visual-text alignment, yet its fixed pretrained weights limit performance without costly image-specific finetuning. We propose a pipeline that integrates vision language models (VLMs) with Retrieval-Augmented Generation (RAG) to support zero-shot recognition through text-based reasoning. A VLM converts vehicle images into descriptive attributes, which are compared against a database of textual features. Relevant entries are retrieved and combined with the description to form a prompt, and a language model (LM) infers the make and model. This design avoids large-scale retraining and enables rapid updates by adding textual descriptions of new vehicles. Experiments show that the proposed method improves recognition by nearly 20% over the CLIP baseline, demonstrating the potential of RAG-enhanced LM reasoning for scalable VMMR in smart-city applications.
- Abstract(参考訳): 車両製造・モデル認識(VMMR)は、インテリジェント輸送システムにおいて重要な課題であるが、既存のアプローチは新しくリリースされたモデルに適応するのに苦労している。
Contrastive Language-Image Pretraining (CLIP) は、強力なビジュアルテキストアライメントを提供するが、その固定された事前トレーニング重量は、コストのかかる画像固有の微調整なしで性能を制限する。
本稿では,テキストベースの推論によるゼロショット認識を支援するために,視覚言語モデル(VLM)とレトリーバル拡張生成(RAG)を統合するパイプラインを提案する。
VLMは、車両画像を記述属性に変換し、テキスト特徴のデータベースと比較する。
関連するエントリを検索して、記述と組み合わせてプロンプトを形成し、言語モデル(LM)が作成とモデルを予測する。
この設計は、大規模な再訓練を回避し、新しい車両のテキスト記述を追加することで、迅速な更新を可能にする。
実験の結果,提案手法はCLIPベースラインよりも20%近く向上し,スマートシティアプリケーションにおけるスケーラブルVMMRに対するRAG強化LM推論の可能性を示した。
関連論文リスト
- Multimodal RAG Enhanced Visual Description [3.2771631221674333]
事前訓練された大型マルチモーダルモデル(LMM)は、テキスト表現と視覚表現のミスアライメントによって特徴づけられるモダリティギャップに遭遇する。
本稿では,RAG(Retrieval-Augmented Generation)を利用した軽量な学習自由アプローチを提案する。
2つのベンチマークマルチモーダルデータセットの実験結果は、大幅な改善を示している。
論文 参考訳(メタデータ) (2025-08-06T19:04:38Z) - Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。