論文の概要: RoadSocial: A Diverse VideoQA Dataset and Benchmark for Road Event Understanding from Social Video Narratives
- arxiv url: http://arxiv.org/abs/2503.21459v1
- Date: Thu, 27 Mar 2025 12:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:29.796881
- Title: RoadSocial: A Diverse VideoQA Dataset and Benchmark for Road Event Understanding from Social Video Narratives
- Title(参考訳): RoadSocial: ソーシャルビデオナラティブからの道路イベント理解のための、さまざまなビデオQAデータセットとベンチマーク
- Authors: Chirag Parikh, Deepti Rawat, Rakshitha R. T., Tathagata Ghosh, Ravi Kiran Sarvadevabhatla,
- Abstract要約: RoadSocialは、ソーシャルメディアの物語から一般的な道路イベントを理解するために設計された、大規模で多様なVideoQAデータセットである。
RoadSocialは、14Mフレームと414Kソーシャルコメントにまたがるソーシャルメディアビデオから派生したもので、結果として13.2Kビデオ、674タグ、260K高品質QAペアのデータセットが作られる。
- 参考スコア(独自算出の注目度): 7.355163854835871
- License:
- Abstract: We introduce RoadSocial, a large-scale, diverse VideoQA dataset tailored for generic road event understanding from social media narratives. Unlike existing datasets limited by regional bias, viewpoint bias and expert-driven annotations, RoadSocial captures the global complexity of road events with varied geographies, camera viewpoints (CCTV, handheld, drones) and rich social discourse. Our scalable semi-automatic annotation framework leverages Text LLMs and Video LLMs to generate comprehensive question-answer pairs across 12 challenging QA tasks, pushing the boundaries of road event understanding. RoadSocial is derived from social media videos spanning 14M frames and 414K social comments, resulting in a dataset with 13.2K videos, 674 tags and 260K high-quality QA pairs. We evaluate 18 Video LLMs (open-source and proprietary, driving-specific and general-purpose) on our road event understanding benchmark. We also demonstrate RoadSocial's utility in improving road event understanding capabilities of general-purpose Video LLMs.
- Abstract(参考訳): ソーシャルメディアの物語から総合的な道路イベント理解に適した大規模で多様なビデオQAデータセットであるRoadSocialを紹介した。
地域バイアス、視点バイアス、専門家主導のアノテーションによって制限された既存のデータセットとは異なり、RoadSocialはさまざまな地理、カメラ視点(CCTV、ハンドヘルド、ドローン)、リッチな社会談話を備えた道路イベントの世界的な複雑さを捉えている。
スケーラブルな半自動アノテーションフレームワークは、Text LLMsとVideo LLMsを利用して、12の課題QAタスクにまたがる包括的な質問応答ペアを生成し、道路イベント理解の境界を押し進めます。
RoadSocialは、14Mフレームと414Kソーシャルコメントにまたがるソーシャルメディアビデオから派生したもので、結果として13.2Kビデオ、674タグ、260K高品質QAペアのデータセットが作られる。
我々は,道路イベント理解ベンチマークを用いて18のビデオLLM(オープンソース,プロプライエタリ,ドライブ固有,汎用)を評価した。
また,汎用ビデオLLMの道路イベント理解能力向上における RoadSocial の有用性を実証する。
関連論文リスト
- WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding [18.490299712769538]
我々はWTSデータセットを導入し、車両と歩行者の両方の詳細な振る舞いを、数百の交通シナリオにおける1.2万以上のビデオイベントにわたって強調した。
WTSは、車両とインフラの協調環境における車両エゴと固定オーバーヘッドカメラからの多様な視点を統合している。
また、歩行者関連トラヒックビデオ5Kのアノテーションをプロビデントしています。
論文 参考訳(メタデータ) (2024-07-22T03:29:22Z) - MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms [25.73585435351771]
本稿では,マルチモーダル大規模言語モデルによるソーシャルメディアコンテンツの理解を評価するためのベンチマークであるMM-Socを紹介する。
MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、新しい大規模なYouTubeタグ付けデータセットを組み込む。
分析の結果、ゼロショット環境では、様々なMLLMが一般的にソーシャルメディアのタスクを扱うのに困難を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T22:27:40Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。
本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文 参考訳(メタデータ) (2024-01-03T16:38:56Z) - GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for
Real-time Soccer Commentary Generation [75.60413443783953]
我々は,KGVC(Knowledge-grounded Video Captioning)として新たなタスク設定を提案するための,8.9k以上のサッカービデオクリップ,22kの文,42kの知識トリプルのベンチマークであるGOALを提案する。
私たちのデータとコードはhttps://github.com/THU-KEG/goal.orgで公開されています。
論文 参考訳(メタデータ) (2023-03-26T08:43:36Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - ROAD: The ROad event Awareness Dataset for Autonomous Driving [16.24547478826027]
ROADは、自動運転車が道路イベントを検出する能力をテストするように設計されている。
22のビデオで構成され、各道路イベントのイメージプレーンの位置を示すバウンディングボックスがアノテートされています。
また、RetinaNetに基づいて、オンライン道路イベント認識のための新しいインクリメンタルアルゴリズムをベースラインとして提供します。
論文 参考訳(メタデータ) (2021-02-23T09:48:56Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。