論文の概要: Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference
- arxiv url: http://arxiv.org/abs/2508.13439v1
- Date: Tue, 19 Aug 2025 01:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.763072
- Title: Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference
- Title(参考訳): 交通映像解釈とリスク推論のための構造化プロンプトとマルチエージェント知識蒸留
- Authors: Yunxiang Yang, Ningning Xu, Jidong J. Yang,
- Abstract要約: 本稿では,高品質な交通シーンアノテーションとコンテキストリスク評価の自動生成を可能にする,新しい構造付きプロンプト・知識蒸留フレームワークを提案する。
我々のフレームワークは、2つの大きなビジョンランゲージモデル(VLM)を編成し、GPT-4oとo3-miniを構造化されたChain-of-Thought(CoT)戦略を用いてリッチで多視点出力を生成する。
VISTAという名前のコンパクトな3Bスケールモデルは、低解像度のトラフィックビデオを理解し、セマンティックに忠実でリスク対応のキャプションを生成することができる。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive highway scene understanding and robust traffic risk inference are vital for advancing Intelligent Transportation Systems (ITS) and autonomous driving. Traditional approaches often struggle with scalability and generalization, particularly under the complex and dynamic conditions of real-world environments. To address these challenges, we introduce a novel structured prompting and knowledge distillation framework that enables automatic generation of high-quality traffic scene annotations and contextual risk assessments. Our framework orchestrates two large Vision-Language Models (VLMs): GPT-4o and o3-mini, using a structured Chain-of-Thought (CoT) strategy to produce rich, multi-perspective outputs. These outputs serve as knowledge-enriched pseudo-annotations for supervised fine-tuning of a much smaller student VLM. The resulting compact 3B-scale model, named VISTA (Vision for Intelligent Scene and Traffic Analysis), is capable of understanding low-resolution traffic videos and generating semantically faithful, risk-aware captions. Despite its significantly reduced parameter count, VISTA achieves strong performance across established captioning metrics (BLEU-4, METEOR, ROUGE-L, and CIDEr) when benchmarked against its teacher models. This demonstrates that effective knowledge distillation and structured multi-agent supervision can empower lightweight VLMs to capture complex reasoning capabilities. The compact architecture of VISTA facilitates efficient deployment on edge devices, enabling real-time risk monitoring without requiring extensive infrastructure upgrades.
- Abstract(参考訳): 総合的なハイウェイシーンの理解と交通リスクの頑健な推測は、インテリジェントトランスポーテーションシステム(ITS)と自律運転の推進に不可欠である。
従来のアプローチはスケーラビリティと一般化に苦しむことが多く、特に実世界の複雑な動的条件下では顕著である。
これらの課題に対処するため,我々は,高品質な交通シーンアノテーションとコンテキストリスク評価の自動生成を可能にする,新しい構造化されたプロンプト・アンド・ナレッジ蒸留フレームワークを導入する。
我々のフレームワークは2つの大きなビジョンランゲージモデル(VLM)を編成し、GPT-4oとo3-miniを構造化されたChain-of-Thought(CoT)戦略を用いてリッチで多視点出力を生成する。
これらの出力は、より小さな学生VLMの教師付き微調整のための知識豊富な擬似アノテーションとして機能する。
VISTA(Vision for Intelligent Scene and Traffic Analysis)という名前のコンパクトな3Bスケールモデルは、低解像度のトラフィックビデオを理解し、セマンティックに忠実でリスク対応のキャプションを生成することができる。
パラメータ数が大幅に削減されているにもかかわらず、VISTAは教師モデルと比較すると、確立されたキャプション指標(BLEU-4, METEOR, ROUGE-L, CIDEr)間で高い性能を達成している。
このことは、効率的な知識蒸留と構造化マルチエージェントの監督が、複雑な推論能力を捉えるために軽量なVLMに力を与えることを示す。
VISTAのコンパクトアーキテクチャにより、エッジデバイスへの効率的なデプロイが容易になり、大規模なインフラストラクチャのアップグレードを必要とせずに、リアルタイムのリスク監視が可能になる。
関連論文リスト
- LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Large Language Models and Their Applications in Roadway Safety and Mobility Enhancement: A Comprehensive Review [14.611584622270405]
本稿では,道路の安全性と移動性を高めるため,大規模言語モデル(LLM)の適用とカスタマイズについて概説する。
重要な焦点は、LLMがアーキテクチャ、トレーニング、プロンプト、マルチモーダル戦略を通じて、交通機関のユニークな時間的および物理的データで"モダリティギャップ"を埋める方法である。
潜在的な可能性にもかかわらず、固有のLLM制限(ハロシン化、推論欠陥)、データガバナンス(プライバシ、バイアスの複雑さ)、複雑さ(シモン・トゥ・リアル、レイテンシ)、厳格な安全保証に関する課題が続いている。
論文 参考訳(メタデータ) (2025-05-19T21:51:18Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Vision-Language Models for Autonomous Driving: CLIP-Based Dynamic Scene Understanding [5.578400344096341]
本研究では,コントラスト言語-画像事前学習(CLIP)モデルを用いた動的シーン検索システムを開発した。
提案システムは,GPT-4oのゼロショット機能を含む,最先端のコンテキスト内学習手法より優れている。
論文 参考訳(メタデータ) (2025-01-09T20:29:31Z) - RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models [9.304973961799359]
視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
論文 参考訳(メタデータ) (2024-12-15T04:51:30Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。