論文の概要: Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference
- arxiv url: http://arxiv.org/abs/2508.13439v1
- Date: Tue, 19 Aug 2025 01:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.763072
- Title: Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference
- Title(参考訳): 交通映像解釈とリスク推論のための構造化プロンプトとマルチエージェント知識蒸留
- Authors: Yunxiang Yang, Ningning Xu, Jidong J. Yang,
- Abstract要約: 本稿では,高品質な交通シーンアノテーションとコンテキストリスク評価の自動生成を可能にする,新しい構造付きプロンプト・知識蒸留フレームワークを提案する。
我々のフレームワークは、2つの大きなビジョンランゲージモデル(VLM)を編成し、GPT-4oとo3-miniを構造化されたChain-of-Thought(CoT)戦略を用いてリッチで多視点出力を生成する。
VISTAという名前のコンパクトな3Bスケールモデルは、低解像度のトラフィックビデオを理解し、セマンティックに忠実でリスク対応のキャプションを生成することができる。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive highway scene understanding and robust traffic risk inference are vital for advancing Intelligent Transportation Systems (ITS) and autonomous driving. Traditional approaches often struggle with scalability and generalization, particularly under the complex and dynamic conditions of real-world environments. To address these challenges, we introduce a novel structured prompting and knowledge distillation framework that enables automatic generation of high-quality traffic scene annotations and contextual risk assessments. Our framework orchestrates two large Vision-Language Models (VLMs): GPT-4o and o3-mini, using a structured Chain-of-Thought (CoT) strategy to produce rich, multi-perspective outputs. These outputs serve as knowledge-enriched pseudo-annotations for supervised fine-tuning of a much smaller student VLM. The resulting compact 3B-scale model, named VISTA (Vision for Intelligent Scene and Traffic Analysis), is capable of understanding low-resolution traffic videos and generating semantically faithful, risk-aware captions. Despite its significantly reduced parameter count, VISTA achieves strong performance across established captioning metrics (BLEU-4, METEOR, ROUGE-L, and CIDEr) when benchmarked against its teacher models. This demonstrates that effective knowledge distillation and structured multi-agent supervision can empower lightweight VLMs to capture complex reasoning capabilities. The compact architecture of VISTA facilitates efficient deployment on edge devices, enabling real-time risk monitoring without requiring extensive infrastructure upgrades.
- Abstract(参考訳): 総合的なハイウェイシーンの理解と交通リスクの頑健な推測は、インテリジェントトランスポーテーションシステム(ITS)と自律運転の推進に不可欠である。
従来のアプローチはスケーラビリティと一般化に苦しむことが多く、特に実世界の複雑な動的条件下では顕著である。
これらの課題に対処するため,我々は,高品質な交通シーンアノテーションとコンテキストリスク評価の自動生成を可能にする,新しい構造化されたプロンプト・アンド・ナレッジ蒸留フレームワークを導入する。
我々のフレームワークは2つの大きなビジョンランゲージモデル(VLM)を編成し、GPT-4oとo3-miniを構造化されたChain-of-Thought(CoT)戦略を用いてリッチで多視点出力を生成する。
これらの出力は、より小さな学生VLMの教師付き微調整のための知識豊富な擬似アノテーションとして機能する。
VISTA(Vision for Intelligent Scene and Traffic Analysis)という名前のコンパクトな3Bスケールモデルは、低解像度のトラフィックビデオを理解し、セマンティックに忠実でリスク対応のキャプションを生成することができる。
パラメータ数が大幅に削減されているにもかかわらず、VISTAは教師モデルと比較すると、確立されたキャプション指標(BLEU-4, METEOR, ROUGE-L, CIDEr)間で高い性能を達成している。
このことは、効率的な知識蒸留と構造化マルチエージェントの監督が、複雑な推論能力を捉えるために軽量なVLMに力を与えることを示す。
VISTAのコンパクトアーキテクチャにより、エッジデバイスへの効率的なデプロイが容易になり、大規模なインフラストラクチャのアップグレードを必要とせずに、リアルタイムのリスク監視が可能になる。
関連論文リスト
- SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - Traffic-MLLM: A Spatio-Temporal MLLM with Retrieval-Augmented Generation for Causal Inference in Traffic [8.754321713184483]
本稿では,詳細なトラフィック解析に適した多モーダル大規模言語モデルであるTraffic-LMを提案する。
我々のモデルは、高品質な交通特化マルチモーダルデータセットを活用し、軽量な微調整にLowRanktemporal Adaptation (LoRA) を用いる。
また、検索ロッドジェネレーション(LoRAG)による最先端推論を融合した革新的な知識モジュールも導入する。
論文 参考訳(メタデータ) (2025-09-14T08:53:06Z) - Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding [5.830619388189558]
本稿では,総合的なハイウェイシーン理解のためのマルチエージェントフレームワークを提案する。
大規模汎用視覚言語モデル(VLM)は、タスク固有のチェーン・オブ・シークレットを生成するために、ドメイン知識と共にコンテキスト化される。
このフレームワークは、気象分類、舗装湿性評価、交通渋滞検出を同時に扱う。
論文 参考訳(メタデータ) (2025-08-24T03:55:24Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Large Language Models and Their Applications in Roadway Safety and Mobility Enhancement: A Comprehensive Review [14.611584622270405]
本稿では,道路の安全性と移動性を高めるため,大規模言語モデル(LLM)の適用とカスタマイズについて概説する。
重要な焦点は、LLMがアーキテクチャ、トレーニング、プロンプト、マルチモーダル戦略を通じて、交通機関のユニークな時間的および物理的データで"モダリティギャップ"を埋める方法である。
潜在的な可能性にもかかわらず、固有のLLM制限(ハロシン化、推論欠陥)、データガバナンス(プライバシ、バイアスの複雑さ)、複雑さ(シモン・トゥ・リアル、レイテンシ)、厳格な安全保証に関する課題が続いている。
論文 参考訳(メタデータ) (2025-05-19T21:51:18Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Vision-Language Models for Autonomous Driving: CLIP-Based Dynamic Scene Understanding [5.578400344096341]
本研究では,コントラスト言語-画像事前学習(CLIP)モデルを用いた動的シーン検索システムを開発した。
提案システムは,GPT-4oのゼロショット機能を含む,最先端のコンテキスト内学習手法より優れている。
論文 参考訳(メタデータ) (2025-01-09T20:29:31Z) - RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models [9.304973961799359]
視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
論文 参考訳(メタデータ) (2024-12-15T04:51:30Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。