論文の概要: Unleashing the Capabilities of Large Vision-Language Models for Intelligent Perception of Roadside Infrastructure
- arxiv url: http://arxiv.org/abs/2601.10551v1
- Date: Thu, 15 Jan 2026 16:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.214515
- Title: Unleashing the Capabilities of Large Vision-Language Models for Intelligent Perception of Roadside Infrastructure
- Title(参考訳): 道路インフラの知的知覚のための大規模視線モデルの適用可能性
- Authors: Luxuan Fu, Chong Liu, Bisheng Yang, Zhen Dong,
- Abstract要約: 汎用モデルは、しばしば必要なきめ細かい属性やドメイン・ルールを捉えるのに苦労する。
本稿では,Large Vision Language Modelsをインテリジェントインフラストラクチャ分析のための特殊なエージェントに変換するドメイン適応フレームワークを提案する。
本フレームワークは58.9mAPの検知性能と95.5%の属性認識精度を実現する。
- 参考スコア(独自算出の注目度): 12.667510244197047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated perception of urban roadside infrastructure is crucial for smart city management, yet general-purpose models often struggle to capture the necessary fine-grained attributes and domain rules. While Large Vision Language Models (VLMs) excel at open-world recognition, they often struggle to accurately interpret complex facility states in compliance with engineering standards, leading to unreliable performance in real-world applications. To address this, we propose a domain-adapted framework that transforms VLMs into specialized agents for intelligent infrastructure analysis. Our approach integrates a data-efficient fine-tuning strategy with a knowledge-grounded reasoning mechanism. Specifically, we leverage open-vocabulary fine-tuning on Grounding DINO to robustly localize diverse assets with minimal supervision, followed by LoRA-based adaptation on Qwen-VL for deep semantic attribute reasoning. To mitigate hallucinations and enforce professional compliance, we introduce a dual-modality Retrieval-Augmented Generation (RAG) module that dynamically retrieves authoritative industry standards and visual exemplars during inference. Evaluated on a comprehensive new dataset of urban roadside scenes, our framework achieves a detection performance of 58.9 mAP and an attribute recognition accuracy of 95.5%, demonstrating a robust solution for intelligent infrastructure monitoring.
- Abstract(参考訳): 都市道路インフラの自動認識は、スマートシティ管理にとって不可欠であるが、汎用モデルは、必要なきめ細かい属性やドメインルールを捉えるのに苦労することが多い。
大きなビジョン言語モデル(VLM)は、オープンワールドの認識において優れているが、エンジニアリング標準に準拠した複雑な施設状態の正確な解釈に苦慮し、現実のアプリケーションでは信頼性の低いパフォーマンスをもたらす。
そこで本稿では,VLMを知的インフラストラクチャ分析のための特殊なエージェントに変換するドメイン適応フレームワークを提案する。
提案手法は,データ効率のよい微調整戦略と知識ベース推論機構を統合した手法である。
具体的には、Grounding DINOにおけるオープン語彙の微調整を利用して、最小限の監督で多様な資産を堅牢にローカライズし、続いて深いセマンティック属性推論のためにQwen-VLにLoRAベースの適応を施す。
幻覚を緩和し、専門的なコンプライアンスを強制するために、推論中に権威ある業界標準や視覚的見本を動的に取り出す2つのモダリティ・レトリーバル・アグメンテッド・ジェネレーション(RAG)モジュールを導入する。
本フレームワークは,都市路面の総合的な新しいデータセットに基づいて,58.9mAPの検知性能と属性認識精度95.5%を実現し,インテリジェントなインフラ監視のための堅牢なソリューションを実証する。
関連論文リスト
- CogRail: Benchmarking VLMs in Cognitive Intrusion Perception for Intelligent Railway Transportation Systems [29.385460126069386]
我々は、キュレートされたデータセットと認知駆動型質問応答アノテーションを統合した新しいベンチマーク、CogRailを紹介した。
このベンチマークに基づいて、我々は最先端のビジュアル言語モデルの体系的な評価を行う。
本稿では,3つの中核的タスク,位置知覚,移動予測,脅威分析を統合したファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T16:36:26Z) - Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems [75.78934957242403]
自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。
本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:58:01Z) - ORPR: An OR-Guided Pretrain-then-Reinforce Learning Model for Inventory Management [9.138155308817215]
プレトレイン-Then-Reinforce」アプローチは、AIの適応的認識をオペレーションリサーチの構造的厳密さと調和させる。
構造化OR論理で導かれる場合、軽量でドメインインフォームドモデルにより最先端の性能とロバストな転送性が得られることを示す。
論文 参考訳(メタデータ) (2025-12-22T03:39:43Z) - VULPO: Context-Aware Vulnerability Detection via On-Policy LLM Optimization [2.6678231901651723]
本稿では、コンテキスト認識型脆弱性検出のためのLLM強化学習フレームワークであるVulnerability-Adaptive Policy Optimization (VULPO)を紹介する。
トレーニングと評価を支援するために,我々はまず,高品質な関数レベルのサンプルを軽量な方法で拡張し,リポジトリレベルのコンテキスト情報を抽出するContextVulを構築した。
異なる脆弱性ケースの非対称的な難しさに対処し、報酬ハックを緩和するために、VULPOはラベルレベルとサンプルレベルの難易度適応型報酬スケーリングを取り入れている。
論文 参考訳(メタデータ) (2025-11-14T21:57:48Z) - SAVANT: Semantic Analysis with Vision-Augmented Anomaly deTection [6.806105013817923]
SAVANTは、異常運転シナリオの検出において高精度なリコールを実現する構造化推論フレームワークである。
9,640以上の実世界の画像を高精度にラベル付けすることで、SAVANTは異常検出における重要なデータ不足問題に対処する。
論文 参考訳(メタデータ) (2025-10-20T19:14:29Z) - Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Proficient Graph Neural Network Design by Accumulating Knowledge on Large Language Models [20.31388126105889]
DesiGNNは知識中心のフレームワークで、過去のモデル設計の経験を構造化されたきめ細かな知識に変換する。
目に見えないグラフ理解と既知の効果的なアーキテクチャパターンの固いメタ知識を構築することで、DesiGNNは、目に見えないデータセットに対するトップ5.77%の初期モデル提案を数秒で提供できる。
論文 参考訳(メタデータ) (2024-08-13T08:22:01Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。