論文の概要: Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding
- arxiv url: http://arxiv.org/abs/2508.17205v1
- Date: Sun, 24 Aug 2025 03:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.401867
- Title: Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding
- Title(参考訳): 総合的ハイウェイシーン理解のためのマルチエージェントビジュアルランゲージ推論
- Authors: Yunxiang Yang, Ningning Xu, Jidong J. Yang,
- Abstract要約: 本稿では,総合的なハイウェイシーン理解のためのマルチエージェントフレームワークを提案する。
大規模汎用視覚言語モデル(VLM)は、タスク固有のチェーン・オブ・シークレットを生成するために、ドメイン知識と共にコンテキスト化される。
このフレームワークは、気象分類、舗装湿性評価、交通渋滞検出を同時に扱う。
- 参考スコア(独自算出の注目度): 5.830619388189558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a multi-agent framework for comprehensive highway scene understanding, designed around a mixture-of-experts strategy. In this framework, a large generic vision-language model (VLM), such as GPT-4o, is contextualized with domain knowledge to generates task-specific chain-of-thought (CoT) prompts. These fine-grained prompts are then used to guide a smaller, efficient VLM (e.g., Qwen2.5-VL-7B) in reasoning over short videos, along with complementary modalities as applicable. The framework simultaneously addresses multiple critical perception tasks, including weather classification, pavement wetness assessment, and traffic congestion detection, achieving robust multi-task reasoning while balancing accuracy and computational efficiency. To support empirical validation, we curated three specialized datasets aligned with these tasks. Notably, the pavement wetness dataset is multimodal, combining video streams with road weather sensor data, highlighting the benefits of multimodal reasoning. Experimental results demonstrate consistently strong performance across diverse traffic and environmental conditions. From a deployment perspective, the framework can be readily integrated with existing traffic camera systems and strategically applied to high-risk rural locations, such as sharp curves, flood-prone lowlands, or icy bridges. By continuously monitoring the targeted sites, the system enhances situational awareness and delivers timely alerts, even in resource-constrained environments.
- Abstract(参考訳): 本稿では,総合的なハイウェイシーン理解のためのマルチエージェントフレームワークを提案する。
このフレームワークでは、GPT-4oのような大規模汎用視覚言語モデル (VLM) をドメイン知識とコンテキスト化してタスク固有のチェーン・オブ・シークレット(CoT)プロンプトを生成する。
これらの微細なプロンプトは、より小さく効率的なVLM(例えば、Qwen2.5-VL-7B)を導出するために使われ、相補的なモダリティが適用される。
このフレームワークは、気象分類、舗装湿性評価、交通渋滞検知など、複数の重要な認識課題に同時に対応し、精度と計算効率のバランスを保ちながら、堅牢なマルチタスク推論を実現する。
経験的検証を支援するため,これらの課題に対応する3つの特別なデータセットをキュレートした。
特に、舗装湿性データセットはマルチモーダルであり、ビデオストリームと道路天気センサデータを組み合わせて、マルチモーダル推論の利点を強調している。
実験結果は、様々な交通環境および環境条件において一貫して強い性能を示す。
配置の観点からは、このフレームワークは既存の交通カメラシステムと容易に統合でき、急激なカーブや洪水の激しい低地、氷の橋など、高リスクの農村に戦略的に適用することができる。
対象のサイトを継続的に監視することにより、リソース制約のある環境でも状況認識を高め、タイムリーなアラートを提供する。
関連論文リスト
- Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference [1.1470070927586018]
本稿では,高品質な交通シーンアノテーションとコンテキストリスク評価の自動生成を可能にする,新しい構造付きプロンプト・知識蒸留フレームワークを提案する。
我々のフレームワークは、2つの大きなビジョンランゲージモデル(VLM)を編成し、GPT-4oとo3-miniを構造化されたChain-of-Thought(CoT)戦略を用いてリッチで多視点出力を生成する。
VISTAという名前のコンパクトな3Bスケールモデルは、低解像度のトラフィックビデオを理解し、セマンティックに忠実でリスク対応のキャプションを生成することができる。
論文 参考訳(メタデータ) (2025-08-19T01:44:02Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models [9.304973961799359]
視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
論文 参考訳(メタデータ) (2024-12-15T04:51:30Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文 参考訳(メタデータ) (2023-07-26T03:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。