論文の概要: TrafficLens: Multi-Camera Traffic Video Analysis Using LLMs
- arxiv url: http://arxiv.org/abs/2511.20965v1
- Date: Wed, 26 Nov 2025 01:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.917881
- Title: TrafficLens: Multi-Camera Traffic Video Analysis Using LLMs
- Title(参考訳): TrafficLens:LLMを用いたマルチカメラ交通映像解析
- Authors: Md Adnan Arefeen, Biplob Debnath, Srimat Chakradhar,
- Abstract要約: マルチカメラフィードを効率的に管理し、分析することは、大量のデータのために課題を引き起こす。
これらの課題に対処するために,マルチカメラ交通交差点に適したアルゴリズムであるTrafficLensを提案する。
実世界のデータセットによる実験結果から、TrafficLensは情報精度を維持しながら、ビデオからテキストへの変換時間を最大4倍に短縮することを示した。
- 参考スコア(独自算出の注目度): 8.205106134817763
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traffic cameras are essential in urban areas, playing a crucial role in intelligent transportation systems. Multiple cameras at intersections enhance law enforcement capabilities, traffic management, and pedestrian safety. However, efficiently managing and analyzing multi-camera feeds poses challenges due to the vast amount of data. Analyzing such huge video data requires advanced analytical tools. While Large Language Models (LLMs) like ChatGPT, equipped with retrieval-augmented generation (RAG) systems, excel in text-based tasks, integrating them into traffic video analysis demands converting video data into text using a Vision-Language Model (VLM), which is time-consuming and delays the timely utilization of traffic videos for generating insights and investigating incidents. To address these challenges, we propose TrafficLens, a tailored algorithm for multi-camera traffic intersections. TrafficLens employs a sequential approach, utilizing overlapping coverage areas of cameras. It iteratively applies VLMs with varying token limits, using previous outputs as prompts for subsequent cameras, enabling rapid generation of detailed textual descriptions while reducing processing time. Additionally, TrafficLens intelligently bypasses redundant VLM invocations through an object-level similarity detector. Experimental results with real-world datasets demonstrate that TrafficLens reduces video-to-text conversion time by up to $4\times$ while maintaining information accuracy.
- Abstract(参考訳): 交通カメラは都市部において不可欠であり、インテリジェント交通システムにおいて重要な役割を担っている。
交差点にある複数のカメラは、法執行能力、交通管理、歩行者の安全を高める。
しかし、マルチカメラフィードの効率的な管理と分析は、大量のデータのために課題となる。
このような巨大なビデオデータを分析するには、高度な分析ツールが必要である。
ChatGPTのような大規模言語モデル(LLM)は、検索強化世代(RAG)システムを備えており、テキストベースのタスクに優れており、映像データをVLM(Vision-Language Model)を使用してテキストに変換することを要求するトラフィックビデオ分析要求に統合することで、インシデントの生成やインシデントの調査のためにトラフィックビデオの時間的利用を遅らせる。
これらの課題に対処するために,マルチカメラ交通交差点に適したアルゴリズムであるTrafficLensを提案する。
TrafficLensは、カメラのオーバーラップするカバレッジ領域を利用して、シーケンシャルなアプローチを採用している。
トークン制限の異なるVLMを反復的に適用し、以前の出力をその後のカメラのプロンプトとして使用し、処理時間を短縮しながら詳細なテキスト記述を迅速に生成する。
さらに、TrafficLensはオブジェクトレベルの類似度検出器を通じて冗長なVLM呼び出しをインテリジェントにバイパスする。
実世界のデータセットによる実験結果から、TrafficLensは情報精度を維持しながら、ビデオからテキストへの変換時間を最大4\times$に短縮することを示した。
関連論文リスト
- Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - InterAct-Video: Reasoning-Rich Video QA for Urban Traffic [21.849445040376537]
ディープラーニングは、質問応答(VideoQA)モデルを通じて、高度なビデオベースのトラフィック監視を実現する。
既存のVideoQAモデルは、現実世界の交通シーンの複雑さに悩まされている。
InterAct VideoQAは、トラフィック監視タスクのためのVideoQAモデルをベンチマークし、拡張するために設計された、キュレートされたデータセットである。
論文 参考訳(メタデータ) (2025-07-19T20:30:43Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning [0.0]
本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。
私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。
論文 参考訳(メタデータ) (2024-04-14T14:51:44Z) - BjTT: A Large-scale Multimodal Dataset for Traffic Prediction [49.93028461584377]
従来の交通予測手法は、交通トレンドを予測するために、過去の交通データに依存している。
本研究では,交通システムを記述するテキストと生成モデルを組み合わせることで,交通生成にどのように応用できるかを考察する。
本稿では,テキスト・トラフィック生成のための最初の拡散モデルChatTrafficを提案する。
論文 参考訳(メタデータ) (2024-03-08T04:19:56Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - Scalable and Real-time Multi-Camera Vehicle Detection,
Re-Identification, and Tracking [58.95210121654722]
理想化されたビデオストリームやキュレートされたビデオストリームの代わりに,リアルタイムで低解像度のCCTVを処理する,リアルタイムな都市規模のマルチカメラ車両追跡システムを提案する。
私たちの手法は、公共のリーダーボードで上位5人のパフォーマーにランク付けされています。
論文 参考訳(メタデータ) (2022-04-15T12:47:01Z) - Edge Computing for Real-Time Near-Crash Detection for Smart
Transportation Applications [29.550609157368466]
交通事故に近いイベントは、さまざまなスマートトランスポートアプリケーションにとって重要なデータソースとなる。
本稿では,既存のダッシュカムの映像ストリームをリアルタイムに処理することで,エッジコンピューティングのパワーを活用してこれらの課題に対処する。
エッジコンピューティングをリアルタイムトラフィックビデオ分析に適用する最初の取り組みのひとつであり、スマートトランスポート研究やアプリケーションにおいて、複数のサブフィールドに恩恵をもたらすことが期待されている。
論文 参考訳(メタデータ) (2020-08-02T19:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。