論文の概要: Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis
- arxiv url: http://arxiv.org/abs/2404.08229v1
- Date: Fri, 12 Apr 2024 04:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:55:31.088432
- Title: Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis
- Title(参考訳): 終端イベント解析のためのパラレルデンスビデオキャプションによる交通安全向上
- Authors: Maged Shoman, Dongdong Wang, Armstrong Aboah, Mohamed Abdel-Aty,
- Abstract要約: 本稿では,AIシティチャレンジ2024におけるトラック2の解決策を紹介する。
このタスクは、Woven Traffic Safetyのデータセットを用いて、交通安全の説明と分析を解決することを目的としている。
私たちのソリューションはテストセットで得られ、競争で6位を獲得しました。
- 参考スコア(独自算出の注目度): 5.4598424549754965
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces our solution for Track 2 in AI City Challenge 2024. The task aims to solve traffic safety description and analysis with the dataset of Woven Traffic Safety (WTS), a real-world Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding. Our solution mainly focuses on the following points: 1) To solve dense video captioning, we leverage the framework of dense video captioning with parallel decoding (PDVC) to model visual-language sequences and generate dense caption by chapters for video. 2) Our work leverages CLIP to extract visual features to more efficiently perform cross-modality training between visual and textual representations. 3) We conduct domain-specific model adaptation to mitigate domain shift problem that poses recognition challenge in video understanding. 4) Moreover, we leverage BDD-5K captioned videos to conduct knowledge transfer for better understanding WTS videos and more accurate captioning. Our solution has yielded on the test set, achieving 6th place in the competition. The open source code will be available at https://github.com/UCF-SST-Lab/AICity2024CVPRW
- Abstract(参考訳): 本稿では,AIシティチャレンジ2024におけるトラック2の解決策を紹介する。
この課題は,詳細な空間的理解のための現実の歩行者中心交通映像データセットであるWoven Traffic Safety (WTS) のデータセットを用いて,交通安全記述と解析を解くことを目的としている。
私たちのソリューションは主に以下の点に焦点を当てています。
1) ビデオキャプションの高密度化を実現するために, パラレルデコード(PDVC)を用いた高密度ビデオキャプションの枠組みを活用し, ビデオの章によって高密度なキャプションを生成する。
2)本研究は,CLIPを利用して視覚的特徴を抽出し,視覚的表現とテキスト表現の相互モダリティトレーニングをより効率的に行う。
3)ビデオ理解における認識課題を生じさせる領域シフト問題を緩和するために,ドメイン固有のモデル適応を行う。
4) BDD-5Kキャプションビデオを利用して知識伝達を行い, WTSビデオの理解を深め, より正確なキャプションを行う。
私たちのソリューションはテストセットで得られ、競争で6位を獲得しました。
オープンソースコードはhttps://github.com/UCF-SST-Lab/AICity2024CVPRWで公開される。
関連論文リスト
- WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding [18.490299712769538]
我々はWTSデータセットを導入し、車両と歩行者の両方の詳細な振る舞いを、数百の交通シナリオにおける1.2万以上のビデオイベントにわたって強調した。
WTSは、車両とインフラの協調環境における車両エゴと固定オーバーヘッドカメラからの多様な視点を統合している。
また、歩行者関連トラヒックビデオ5Kのアノテーションをプロビデントしています。
論文 参考訳(メタデータ) (2024-07-22T03:29:22Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and
Multi-Head Decoding for Dense Video Captioning [46.69503728433432]
本稿では,符号化・復号化フレームワークに基づく意味支援型高密度ビデオキャプションモデルを提案する。
本手法は,評価中のYouMakeupデータセットの大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-06T10:56:53Z) - GL-RG: Global-Local Representation Granularity for Video Captioning [52.56883051799501]
ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。
GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2022-05-22T02:00:09Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。