論文の概要: WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding
- arxiv url: http://arxiv.org/abs/2407.15350v1
- Date: Mon, 22 Jul 2024 03:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 16:20:27.991610
- Title: WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding
- Title(参考訳): WTS: 微粒な空間的時間的理解のための歩行者中心交通映像データセット
- Authors: Quan Kong, Yuki Kawana, Rajat Saini, Ashutosh Kumar, Jingjing Pan, Ta Gu, Yohei Ozao, Balazs Opra, David C. Anastasiu, Yoichi Sato, Norimasa Kobori,
- Abstract要約: 我々はWTSデータセットを導入し、車両と歩行者の両方の詳細な振る舞いを、数百の交通シナリオにおける1.2万以上のビデオイベントにわたって強調した。
WTSは、車両とインフラの協調環境における車両エゴと固定オーバーヘッドカメラからの多様な視点を統合している。
また、歩行者関連トラヒックビデオ5Kのアノテーションをプロビデントしています。
- 参考スコア(独自算出の注目度): 18.490299712769538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the challenge of fine-grained video event understanding in traffic scenarios, vital for autonomous driving and safety. Traditional datasets focus on driver or vehicle behavior, often neglecting pedestrian perspectives. To fill this gap, we introduce the WTS dataset, highlighting detailed behaviors of both vehicles and pedestrians across over 1.2k video events in hundreds of traffic scenarios. WTS integrates diverse perspectives from vehicle ego and fixed overhead cameras in a vehicle-infrastructure cooperative environment, enriched with comprehensive textual descriptions and unique 3D Gaze data for a synchronized 2D/3D view, focusing on pedestrian analysis. We also pro-vide annotations for 5k publicly sourced pedestrian-related traffic videos. Additionally, we introduce LLMScorer, an LLM-based evaluation metric to align inference captions with ground truth. Using WTS, we establish a benchmark for dense video-to-text tasks, exploring state-of-the-art Vision-Language Models with an instance-aware VideoLLM method as a baseline. WTS aims to advance fine-grained video event understanding, enhancing traffic safety and autonomous driving development.
- Abstract(参考訳): 本稿では,自動運転と安全に不可欠な交通シナリオにおけるきめ細かい映像イベント理解の課題に対処する。
伝統的なデータセットは、しばしば歩行者の視点を無視して、ドライバーまたは車両の振る舞いに焦点を当てている。
このギャップを埋めるために、WTSデータセットを導入し、何百もの交通シナリオにおける1.2万以上のビデオイベントにわたる車両と歩行者の両方の詳細な振る舞いを強調します。
WTSは、車両とインフラの協調環境における車両エゴと固定オーバーヘッドカメラからの様々な視点を統合し、歩行者分析に焦点を当てた2D/3Dビューのための包括的なテキスト記述とユニークな3D Gazeデータに富んでいる。
また、歩行者関連トラヒックビデオ5Kのアノテーションをプロビデントしています。
さらに,LLMに基づく評価指標であるLLMScorerを導入し,推論キャプションと真実を一致させる。
WTSを用いて高密度なビデオ・テキスト・タスクのベンチマークを構築し,現状のビジョン・ランゲージ・モデルとインスタンスを意識したビデオLLMをベースラインとして探索する。
WTSは、きめ細かいビデオイベントの理解、交通安全の強化、自動運転開発を目標としている。
関連論文リスト
- DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning [0.0]
本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。
私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。
論文 参考訳(メタデータ) (2024-04-14T14:51:44Z) - SEVD: Synthetic Event-based Vision Dataset for Ego and Fixed Traffic Perception [22.114089372056238]
我々は、SEVD、第一種マルチビューエゴ、固定認識合成イベントベースデータセットを提案する。
SEVDは、都市、郊外、田園部、ハイウェイのシーンに、様々な種類の物体がある。
本研究では,最新のイベントベース (RED, RVT) とフレームベース (YOLOv8) を用いて,トラフィック検出タスクのデータセットを評価する。
論文 参考訳(メタデータ) (2024-04-12T20:40:12Z) - Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis [5.4598424549754965]
本稿では,AIシティチャレンジ2024におけるトラック2の解決策を紹介する。
このタスクは、Woven Traffic Safetyのデータセットを用いて、交通安全の説明と分析を解決することを目的としている。
私たちのソリューションはテストセットで得られ、競争で6位を獲得しました。
論文 参考訳(メタデータ) (2024-04-12T04:08:21Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - Urban Traffic Surveillance (UTS): A fully probabilistic 3D tracking
approach based on 2D detections [11.34426502082293]
都市交通監視(Urban Traffic Surveillance、UTS)は、モノクロカメラとキャリブレーションカメラをベースとした監視システムである。
UTSは3Dバウンディングボックス表現と物理的に合理的な3Dモーションモデルを用いて車両を追跡している。
論文 参考訳(メタデータ) (2021-05-31T14:29:02Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。