Fugu-MT 論文翻訳(概要): TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning

論文の概要: TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning

arxiv url: http://arxiv.org/abs/2404.09275v1
Date: Sun, 14 Apr 2024 14:51:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 14:48:15.262580
Title: TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning
Title（参考訳）: TrafficVLM: トラフィックビデオキャプションのための制御可能なビジュアル言語モデル
Authors: Quang Minh Dinh, Minh Khoi Ho, Anh Quan Dang, Hung Phong Tran,
Abstract要約: 本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Traffic video description and analysis have received much attention recently due to the growing demand for efficient and reliable urban surveillance systems. Most existing methods only focus on locating traffic event segments, which severely lack descriptive details related to the behaviour and context of all the subjects of interest in the events. In this paper, we present TrafficVLM, a novel multi-modal dense video captioning model for vehicle ego camera view. TrafficVLM models traffic video events at different levels of analysis, both spatially and temporally, and generates long fine-grained descriptions for the vehicle and pedestrian at different phases of the event. We also propose a conditional component for TrafficVLM to control the generation outputs and a multi-task fine-tuning paradigm to enhance TrafficVLM's learning capability. Experiments show that TrafficVLM performs well on both vehicle and overhead camera views. Our solution achieved outstanding results in Track 2 of the AI City Challenge 2024, ranking us third in the challenge standings. Our code is publicly available at https://github.com/quangminhdinh/TrafficVLM.
Abstract（参考訳）: 近年,効率的で信頼性の高い都市監視システムの需要が高まっているため,交通映像の記述や分析に注目が集まっている。既存のほとんどのメソッドは、トラフィックイベントセグメントの特定のみに焦点を当てており、イベントに関心のあるすべての主題の振る舞いとコンテキストに関する記述的な詳細を欠いている。本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。 TrafficVLMは、ビデオイベントを空間的にも時間的にも、さまざまなレベルの分析レベルでモデル化し、イベントの異なるフェーズにおける車両と歩行者の詳細な説明を生成する。また,TrafficVLMが生成出力を制御するための条件コンポーネントと,TrafficVLMの学習能力を高めるためのマルチタスク微調整パラダイムを提案する。実験によると、TrafficVLMは車とカメラの両方でうまく機能している。私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。私たちのコードはhttps://github.com/quangminhdinh/TrafficVLM.comで公開されています。

関連論文リスト

InterAct-Video: Reasoning-Rich Video QA for Urban Traffic [20.537672896807063]
ディープラーニングは、質問応答(VideoQA)モデルを通じて、高度なビデオベースのトラフィック監視を実現する。既存のVideoQAモデルは、現実世界の交通シーンの複雑さに悩まされている。 InterAct VideoQAは、トラフィック監視タスクのためのVideoQAモデルをベンチマークし、拡張するために設計された、キュレートされたデータセットである。
論文参考訳（メタデータ） (2025-07-19T20:30:43Z)
Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。 i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文参考訳（メタデータ） (2025-03-06T07:36:06Z)
When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文参考訳（メタデータ） (2025-01-17T23:35:34Z)
Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文参考訳（メタデータ） (2024-10-07T17:59:48Z)
WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding [18.490299712769538]
我々はWTSデータセットを導入し、車両と歩行者の両方の詳細な振る舞いを、数百の交通シナリオにおける1.2万以上のビデオイベントにわたって強調した。 WTSは、車両とインフラの協調環境における車両エゴと固定オーバーヘッドカメラからの多様な視点を統合している。また、歩行者関連トラヒックビデオ5Kのアノテーションをプロビデントしています。
論文参考訳（メタデータ） (2024-07-22T03:29:22Z)
Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis [5.4598424549754965]
本稿では,AIシティチャレンジ2024におけるトラック2の解決策を紹介する。このタスクは、Woven Traffic Safetyのデータセットを用いて、交通安全の説明と分析を解決することを目的としている。私たちのソリューションはテストセットで得られ、競争で6位を獲得しました。
論文参考訳（メタデータ） (2024-04-12T04:08:21Z)
eTraM: Event-based Traffic Monitoring Dataset [23.978331129798356]
我々は、イベントベースのトラフィック監視データセットであるeTraMを紹介した。 eTraMは、様々な照明と気象条件の異なる交通シナリオから10時間のデータを提供する。車両から歩行者、マイクロモビリティまで、交通参加者の8つの異なるクラスをカバーしている。
論文参考訳（メタデータ） (2024-03-29T04:58:56Z)
Traffic-Domain Video Question Answering with Automatic Captioning [69.98381847388553]
Video Question Answering (VidQA) は、高度な機械推論機能を促進する重要な可能性を示している。本稿では,交通領域の知識を大規模ビデオ言語モデルに注入する弱スーパービジョン手法として,交通領域ビデオ質問回答と自動キャプション(TRIVIA)を提案する。
論文参考訳（メタデータ） (2023-07-18T20:56:41Z)
OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。 OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文参考訳（メタデータ） (2023-04-20T16:31:22Z)
Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文参考訳（メタデータ） (2023-03-06T02:05:14Z)
TrafficCAM: A Versatile Dataset for Traffic Flow Segmentation [9.744937939618161]
既存のトラフィックフローデータセットには2つの大きな制限がある。クラス数は限られており、通常は1種類の車両に限られる。我々は、TrafficCAMと呼ばれる新しいベンチマークトラフィックフロー画像データセットを導入する。
論文参考訳（メタデータ） (2022-11-17T16:14:38Z)
Scalable and Real-time Multi-Camera Vehicle Detection, Re-Identification, and Tracking [58.95210121654722]
理想化されたビデオストリームやキュレートされたビデオストリームの代わりに,リアルタイムで低解像度のCCTVを処理する,リアルタイムな都市規模のマルチカメラ車両追跡システムを提案する。私たちの手法は、公共のリーダーボードで上位5人のパフォーマーにランク付けされています。
論文参考訳（メタデータ） (2022-04-15T12:47:01Z)
Traffic-Net: 3D Traffic Monitoring Using a Single Camera [1.1602089225841632]
我々は,1台のCCTVトラヒックカメラを用いたリアルタイムトラヒック監視のための実用的なプラットフォームを提供する。車両・歩行者検出のためのカスタムYOLOv5ディープニューラルネットワークモデルとSORT追跡アルゴリズムの改良を行った。また、短時間・長期の時間的ビデオデータストリームに基づく階層的なトラフィックモデリングソリューションも開発している。
論文参考訳（メタデータ） (2021-09-19T16:59:01Z)
Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文参考訳（メタデータ） (2020-07-02T00:59:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。