論文の概要: TrafficQA: A Question Answering Benchmark and an Efficient Network for
Video Reasoning over Traffic Events
- arxiv url: http://arxiv.org/abs/2103.15538v2
- Date: Tue, 30 Mar 2021 15:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 11:59:36.222291
- Title: TrafficQA: A Question Answering Benchmark and an Efficient Network for
Video Reasoning over Traffic Events
- Title(参考訳): trafficqa: トラフィックイベントに対するビデオ推論のための質問応答ベンチマークと効率的なネットワーク
- Authors: Li Xu, He Huang and Jun Liu
- Abstract要約: 収集した10,080本のビデオと62,535本のqaペアに基づく,新たなデータセットtrafficqa(traffic question answering)を作成しました。
複雑で実用的であるさまざまな交通イベントに対する推論能力を評価するために, さまざまな交通シナリオに対応する6つの難しい推論タスクを提案する。
また,計算効率が高く,信頼性の高いビデオ推論を実現するために,動的推論による新しい視覚ネットワークであるEclipseを提案する。
- 参考スコア(独自算出の注目度): 13.46045177335564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic event cognition and reasoning in videos is an important task that has
a wide range of applications in intelligent transportation, assisted driving,
and autonomous vehicles. In this paper, we create a novel dataset, TrafficQA
(Traffic Question Answering), which takes the form of video QA based on the
collected 10,080 in-the-wild videos and annotated 62,535 QA pairs, for
benchmarking the cognitive capability of causal inference and event
understanding models in complex traffic scenarios. Specifically, we propose 6
challenging reasoning tasks corresponding to various traffic scenarios, so as
to evaluate the reasoning capability over different kinds of complex yet
practical traffic events. Moreover, we propose Eclipse, a novel Efficient
glimpse network via dynamic inference, in order to achieve
computation-efficient and reliable video reasoning. The experiments show that
our method achieves superior performance while reducing the computation cost
significantly. The project page: https://github.com/SUTDCV/SUTD-TrafficQA.
- Abstract(参考訳): ビデオにおける交通イベントの認識と推論は、インテリジェントな輸送、アシスト運転、自動運転車に幅広く応用されている重要なタスクである。
本稿では,複雑な交通シナリオにおける因果推論と事象理解モデルの認知能力を評価するために,収集した10,080件のビデオと注釈付き62,535件のQAペアに基づいて,ビデオQAの形式を取り入れた新しいデータセットであるTraffic Question Answering(Traffic Question Answering)を作成する。
具体的には,様々な交通シナリオに対応する難解な推論タスクを6つ提案し,様々な種類の複雑かつ実用的な交通イベントに対する推論能力を評価する。
さらに,計算効率が高く信頼性の高いビデオ推論を実現するために,動的推論による新しい視覚ネットワークであるEclipseを提案する。
本手法は計算コストを大幅に削減しながら優れた性能を実現することを示す。
プロジェクトページ:https://github.com/SUTDCV/SUTD-TrafficQA。
関連論文リスト
- TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning [0.0]
本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。
私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。
論文 参考訳(メタデータ) (2024-04-14T14:51:44Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Traffic-Domain Video Question Answering with Automatic Captioning [69.98381847388553]
Video Question Answering (VidQA) は、高度な機械推論機能を促進する重要な可能性を示している。
本稿では,交通領域の知識を大規模ビデオ言語モデルに注入する弱スーパービジョン手法として,交通領域ビデオ質問回答と自動キャプション(TRIVIA)を提案する。
論文 参考訳(メタデータ) (2023-07-18T20:56:41Z) - Semantic-aware Dynamic Retrospective-Prospective Reasoning for
Event-level Video Question Answering [14.659023742381777]
Event-Level Video Question Answering (EVQA)は、最適な回答を提供するために、ビデオイベント間の複雑な推論を必要とする。
本稿では,映像に基づく質問応答のための意味認識動的ふりかえり推論手法を提案する。
提案手法は,従来の最先端モデルと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-14T03:57:11Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - DQ-GAT: Towards Safe and Efficient Autonomous Driving with Deep
Q-Learning and Graph Attention Networks [12.714551756377265]
従来の計画手法は概ねルールベースであり、複雑な動的シナリオではスケールが不十分である。
スケーラブルでプロアクティブな自動運転を実現するためにDQ-GATを提案する。
我々の手法は、見知らぬシナリオと見えないシナリオの両方において、安全と効率のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-08-11T04:55:23Z) - Multi-intersection Traffic Optimisation: A Benchmark Dataset and a
Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。
問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。
エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T03:55:39Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Edge Computing for Real-Time Near-Crash Detection for Smart
Transportation Applications [29.550609157368466]
交通事故に近いイベントは、さまざまなスマートトランスポートアプリケーションにとって重要なデータソースとなる。
本稿では,既存のダッシュカムの映像ストリームをリアルタイムに処理することで,エッジコンピューティングのパワーを活用してこれらの課題に対処する。
エッジコンピューティングをリアルタイムトラフィックビデオ分析に適用する最初の取り組みのひとつであり、スマートトランスポート研究やアプリケーションにおいて、複数のサブフィールドに恩恵をもたらすことが期待されている。
論文 参考訳(メタデータ) (2020-08-02T19:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。