論文の概要: Knowledge-Based Visual Question Answering in Videos
- arxiv url: http://arxiv.org/abs/2004.08385v1
- Date: Fri, 17 Apr 2020 02:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 10:15:38.834649
- Title: Knowledge-Based Visual Question Answering in Videos
- Title(参考訳): ビデオにおける知識に基づく視覚的質問応答
- Authors: Noa Garcia, Mayu Otani, Chenhui Chu, Yuta Nakashima
- Abstract要約: 我々は,人気のシットコムについて,24,282対の質問応答対を用いたビデオデータセットであるKnowIT VQAを紹介する。
このデータセットは、視覚的、テキスト的、時間的コヒーレンス推論と知識に基づく質問を組み合わせる。
i) 知識の取り込みはビデオにおけるVQAの卓越した改善をもたらし, (ii) KnowIT VQAの性能は人間の精度よりかなり遅れている。
- 参考スコア(独自算出の注目度): 36.23723122336639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel video understanding task by fusing knowledge-based and
video question answering. First, we introduce KnowIT VQA, a video dataset with
24,282 human-generated question-answer pairs about a popular sitcom. The
dataset combines visual, textual and temporal coherence reasoning together with
knowledge-based questions, which need of the experience obtained from the
viewing of the series to be answered. Second, we propose a video understanding
model by combining the visual and textual video content with specific knowledge
about the show. Our main findings are: (i) the incorporation of knowledge
produces outstanding improvements for VQA in video, and (ii) the performance on
KnowIT VQA still lags well behind human accuracy, indicating its usefulness for
studying current video modelling limitations.
- Abstract(参考訳): 本稿では,知識ベースとビデオ質問応答を融合した新しい映像理解タスクを提案する。
まず、一般的なシットコムに関する24,282対の質問応答対を持つビデオデータセットであるKnowIT VQAを紹介する。
データセットは、視覚的、テキスト的、時間的コヒーレンス推論と、シリーズの視聴から得られた経験を必要とする知識ベースの質問を組み合わせる。
第2に、映像コンテンツとテキストビデオコンテンツと、番組に関する特定の知識を組み合わせた映像理解モデルを提案する。
私たちの主な発見は
一 ビデオにおけるVQAに対する知識の付与は、卓越した改善をもたらす。
(II)nowIT VQAの性能は人間の精度にかなり遅れており、現在のビデオモデリングの限界を研究するのに有用であることを示している。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - YTCommentQA: Video Question Answerability in Instructional Videos [22.673000779017595]
本稿では,YouTubeから自然生成された質問を含むYTCommentQAデータセットを提案する。
データセットは、その回答可能性と、視覚的、スクリプト、あるいはその両方に答えるために必要なモダリティによって分類される。
論文 参考訳(メタデータ) (2024-01-30T14:18:37Z) - A Unified Model for Video Understanding and Knowledge Embedding with
Heterogeneous Knowledge Graph Dataset [47.805378137676605]
マルチモーダルビデオエンティティと実りある常識関係を含む異種データセットを提案する。
実験により,映像理解の埋め込みと事実知識を組み合わせることで,コンテンツに基づく映像検索性能が向上することが示唆された。
また、VRTやVRVタスクにおいて従来のKGEベースの手法よりも優れた知識グラフの埋め込みを生成するのに役立つ。
論文 参考訳(メタデータ) (2022-11-19T09:00:45Z) - VLC-BERT: Visual Question Answering with Contextualized Commonsense
Knowledge [48.457788853408616]
本稿では,視覚的・テキスト的手がかりとともに,外部の常識知識を生成,選択,符号化する手法を提案する。
VLC-BERTは静的知識ベースを利用した既存モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T22:01:17Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - Transferring Domain-Agnostic Knowledge in Video Question Answering [27.948768254771537]
ビデオ質問応答(Video QA)は、関連するビデオクリップに基づいて、所定の質問に答えるように設計されている。
本稿では,ドメインに依存しない知識とドメイン固有の知識を導入することによって,伝達学習手法を検討する。
i) ドメインに依存しない知識は転送可能であり、(ii) 提案した転送学習フレームワークは、ビデオQAのパフォーマンスを効果的に向上させることができる。
論文 参考訳(メタデータ) (2021-10-26T03:58:31Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。