論文の概要: Watching the News: Towards VideoQA Models that can Read
- arxiv url: http://arxiv.org/abs/2211.05588v2
- Date: Thu, 7 Dec 2023 06:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 19:23:03.548615
- Title: Watching the News: Towards VideoQA Models that can Read
- Title(参考訳): ニュースを見る: 読むことのできるビデオQAモデルへ
- Authors: Soumya Jahagirdar, Minesh Mathew, Dimosthenis Karatzas, C. V. Jawahar
- Abstract要約: 我々は、テキスト情報は行動に相補的であり、推論プロセスに重要な文脈化手段を提供すると主張している。
本稿では,ビデオ中のテキストの読み書きを必要とする新しいビデオQAタスクを提案する。
我々は,世界中の多様なニュースチャンネルから得られる3,000ドル以上のニュースビデオに対して,8600ドル以上のQAペアからなるNewsVideoQA'データセットを紹介した。
- 参考スコア(独自算出の注目度): 40.01623654896573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering methods focus on commonsense reasoning and visual
cognition of objects or persons and their interactions over time. Current
VideoQA approaches ignore the textual information present in the video.
Instead, we argue that textual information is complementary to the action and
provides essential contextualisation cues to the reasoning process. To this
end, we propose a novel VideoQA task that requires reading and understanding
the text in the video. To explore this direction, we focus on news videos and
require QA systems to comprehend and answer questions about the topics
presented by combining visual and textual cues in the video. We introduce the
``NewsVideoQA'' dataset that comprises more than $8,600$ QA pairs on $3,000+$
news videos obtained from diverse news channels from around the world. We
demonstrate the limitations of current Scene Text VQA and VideoQA methods and
propose ways to incorporate scene text information into VideoQA methods.
- Abstract(参考訳): ビデオ質問回答手法は、時間とともにオブジェクトや人物の常識的推論と視覚的認知と相互作用に焦点をあてる。
現在のビデオQAアプローチは、ビデオに存在するテキスト情報を無視する。
代わりに、テキスト情報は行動に相補的であり、推論プロセスに重要な文脈化手段を提供する、と論じる。
そこで本研究では,ビデオ中のテキストの読み書きを必要とする新しいビデオQAタスクを提案する。
この方向性を探るため、我々はニュースビデオに焦点をあて、ビデオ内の視覚とテキストの組み合わせによって提示されるトピックについて、QAシステムに理解と回答を求める。
我々は,世界中の多様なニュースチャンネルから得られる3,000ドル以上のニュースビデオに対して,8600ドル以上のQAペアからなる‘NewsVideoQA’データセットを紹介した。
本稿では,現在のシーンテキストVQAおよびビデオQA手法の限界を実証し,シーンテキスト情報をビデオQA手法に組み込む方法を提案する。
関連論文リスト
- Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering [7.429984955853609]
ビデオ質問応答のための簡単なQ-ViD(ビデオQA)を提案する。
Q-ViDは、フレーム記述を用いたビデオQAに取り組むために、単一の命令対応オープンビジョン言語モデル(InstructBLIP)に依存している。
論文 参考訳(メタデータ) (2024-02-16T13:59:07Z) - Understanding Video Scenes through Text: Insights from Text-based Video
Question Answering [40.01623654896573]
本稿では,最近導入された2つのデータセットであるNewsVideoQAとM4-ViteVQAについて検討する。
本稿では,これらのデータセットの様々なレベルでの定式化の分析を行い,その解答に必要な視覚的理解度と多フレーム理解度について検討する。
論文 参考訳(メタデータ) (2023-09-04T06:11:00Z) - Reading Between the Lanes: Text VideoQA on the Road [27.923465943344723]
RoadTextVQAは、ビデオ質問応答(VideoQA)タスクのための新しいデータセットである。
RoadTextVQAは、複数の国から集められた3222ドルのドライビングビデオで構成され、10,500ドルの質問が付録されている。
RoadTextVQAデータセット上で、最先端のビデオ質問応答モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-07-08T10:11:29Z) - Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions [30.650879247687747]
動画からダイナミックなシーンを伝えるビデオキャプションは、自然言語の理解を深める。
本稿では,より包括的なビデオ記述を作成するための革新的なアプローチであるVideo ChatCaptionerを紹介する。
論文 参考訳(メタデータ) (2023-04-09T12:46:18Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - NEWSKVQA: Knowledge-Aware News Video Question Answering [5.720640816755851]
我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。
我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。
本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
論文 参考訳(メタデータ) (2022-02-08T17:31:31Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。