論文の概要: Reading Between the Lanes: Text VideoQA on the Road
- arxiv url: http://arxiv.org/abs/2307.03948v1
- Date: Sat, 8 Jul 2023 10:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 16:17:37.019117
- Title: Reading Between the Lanes: Text VideoQA on the Road
- Title(参考訳): レーン間の読書: 道路上のテキストビデオQA
- Authors: George Tom, Minesh Mathew, Sergi Garcia, Dimosthenis Karatzas and C.V.
Jawahar
- Abstract要約: RoadTextVQAは、ビデオ質問応答(VideoQA)タスクのための新しいデータセットである。
RoadTextVQAは、複数の国から集められた3222ドルのドライビングビデオで構成され、10,500ドルの質問が付録されている。
RoadTextVQAデータセット上で、最先端のビデオ質問応答モデルの性能を評価する。
- 参考スコア(独自算出の注目度): 27.923465943344723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text and signs around roads provide crucial information for drivers, vital
for safe navigation and situational awareness. Scene text recognition in motion
is a challenging problem, while textual cues typically appear for a short time
span, and early detection at a distance is necessary. Systems that exploit such
information to assist the driver should not only extract and incorporate visual
and textual cues from the video stream but also reason over time. To address
this issue, we introduce RoadTextVQA, a new dataset for the task of video
question answering (VideoQA) in the context of driver assistance. RoadTextVQA
consists of $3,222$ driving videos collected from multiple countries, annotated
with $10,500$ questions, all based on text or road signs present in the driving
videos. We assess the performance of state-of-the-art video question answering
models on our RoadTextVQA dataset, highlighting the significant potential for
improvement in this domain and the usefulness of the dataset in advancing
research on in-vehicle support systems and text-aware multimodal question
answering. The dataset is available at
http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtextvqa
- Abstract(参考訳): 道路周辺のテキストと標識はドライバーにとって重要な情報を提供し、安全な航行と状況認識に不可欠である。
動作中のシーンのテキスト認識は難しい問題であり、テキストの手がかりは通常短時間で現れるが、距離での早期検出が必要となる。
このような情報を利用してドライバーを支援するシステムは、ビデオストリームから視覚的およびテキスト的手がかりを抽出し、取り入れるだけでなく、時間とともに推論するべきである。
この問題に対処するために、ドライバ支援の文脈でビデオ質問応答(VideoQA)タスクのための新しいデータセットであるRoadTextVQAを紹介する。
RoadTextVQAは、複数の国から集められた3222ドルのドライビングビデオから成り、10,500ドルの質問が注釈付けされ、すべてドライビングビデオにあるテキストまたはロードサインに基づいている。
RoadTextVQAデータセット上での最先端のビデオ質問応答モデルの性能評価を行い、車載支援システムとテキスト対応マルチモーダル質問応答の研究を進める上で、この領域における改善の可能性とデータセットの有用性を明らかにする。
データセットはhttp://cvit.iiit.ac.in/research/projects/cvit-projects/roadtextvqaで入手できる。
関連論文リスト
- Scene-Text Grounding for Text-Based Video Question Answering [97.1112579979614]
テキストベースのビデオ質問応答(TextVideoQA)の既存の取り組みは、不透明な意思決定とシーンテキスト認識への依存で批判されている。
我々は,モデルに質問への回答を強制し,関連するシーンテキスト領域を解釈させることにより,グラウンドドテキストビデオQAを研究する。
論文 参考訳(メタデータ) (2024-09-22T05:13:11Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and
Small Text [46.177941541282756]
我々は,DSText V2というビデオテキスト読解ベンチマークを構築し,DenseとSmallテキスト読解の課題に焦点を当てた。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
ビデオのぼやけや歪みと相まって、高頻度の小さなテキストは、さらなる課題をもたらすだろう。
論文 参考訳(メタデータ) (2023-11-29T09:13:27Z) - Understanding Video Scenes through Text: Insights from Text-based Video
Question Answering [40.01623654896573]
本稿では,最近導入された2つのデータセットであるNewsVideoQAとM4-ViteVQAについて検討する。
本稿では,これらのデータセットの様々なレベルでの定式化の分析を行い,その解答に必要な視覚的理解度と多フレーム理解度について検討する。
論文 参考訳(メタデータ) (2023-09-04T06:11:00Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - ICDAR 2023 Video Text Reading Competition for Dense and Small Text [61.138557702185274]
我々は,ビデオ中の高密度・小型のテキスト読解課題に焦点を当てた,ビデオテキスト読解ベンチマークDSTextを構築した。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
提案したDSTextには、12のオープンシナリオから100のビデオクリップが含まれており、2つのタスク(例えば、ビデオテキストトラッキング(Task 1)と、エンドツーエンドのビデオテキストスポッティング(Task2)をサポートする。
論文 参考訳(メタデータ) (2023-04-10T04:20:34Z) - Watching the News: Towards VideoQA Models that can Read [40.01623654896573]
我々は、テキスト情報は行動に相補的であり、推論プロセスに重要な文脈化手段を提供すると主張している。
本稿では,ビデオ中のテキストの読み書きを必要とする新しいビデオQAタスクを提案する。
我々は,世界中の多様なニュースチャンネルから得られる3,000ドル以上のニュースビデオに対して,8600ドル以上のQAペアからなるNewsVideoQA'データセットを紹介した。
論文 参考訳(メタデータ) (2022-11-10T13:58:38Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - RoadText-1K: Text Detection & Recognition Dataset for Driving Videos [26.614671477004375]
本稿では,動画のテキスト処理のための新しい"RoadText-1K"データセットを提案する。
データセットは、既存のビデオ中のテキスト用の最大データセットの20倍の大きさだ。
論文 参考訳(メタデータ) (2020-05-19T14:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。