論文の概要: DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA
- arxiv url: http://arxiv.org/abs/2005.03356v2
- Date: Thu, 17 Dec 2020 02:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 22:22:25.503922
- Title: DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA
- Title(参考訳): DramaQA:階層型QAによる文字中心のビデオストーリー理解
- Authors: Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang,
Minsu Lee, Byoung-Tak Zhang
- Abstract要約: 本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
- 参考スコア(独自算出の注目度): 24.910132013543947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress on computer vision and natural language processing,
developing a machine that can understand video story is still hard to achieve
due to the intrinsic difficulty of video story. Moreover, researches on how to
evaluate the degree of video understanding based on human cognitive process
have not progressed as yet. In this paper, we propose a novel video question
answering (Video QA) task, DramaQA, for a comprehensive understanding of the
video story. The DramaQA focuses on two perspectives: 1) Hierarchical QAs as an
evaluation metric based on the cognitive developmental stages of human
intelligence. 2) Character-centered video annotations to model local coherence
of the story. Our dataset is built upon the TV drama "Another Miss Oh" and it
contains 17,983 QA pairs from 23,928 various length video clips, with each QA
pair belonging to one of four difficulty levels. We provide 217,308 annotated
images with rich character-centered annotations, including visual bounding
boxes, behaviors and emotions of main characters, and coreference resolved
scripts. Additionally, we suggest Multi-level Context Matching model which
hierarchically understands character-centered representations of video to
answer questions. We release our dataset and model publicly for research
purposes, and we expect our work to provide a new perspective on video story
understanding research.
- Abstract(参考訳): 近年のコンピュータビジョンと自然言語処理の進歩にもかかわらず、ビデオストーリーの本質的な難しさのため、ビデオストーリーを理解できる機械の開発はいまだに困難である。
また,人間の認知過程に基づく映像理解の程度を評価する方法については,まだ研究が進んでいない。
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
DramaQAは2つの視点に焦点を当てている。
1)人間の知能の認知発達段階に基づく評価指標としての階層的QA。
2) ストーリーの局所的コヒーレンスをモデル化するための文字中心のビデオアノテーション。
我々のデータセットは、テレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAビデオクリップが23,928本あり、各QAペアは4つの難易度のうちの1つに属している。
我々は217,308個のアノテーション付き画像を提供し,視覚境界ボックスや主要文字の動作や感情,解決されたスクリプトの同時参照など,文字中心のアノテーションを充実させた。
さらに,ビデオの文字中心表現を階層的に理解し,質問に答えるマルチレベルコンテキストマッチングモデルを提案する。
我々は,研究目的のためにデータセットとモデルを公開し,ビデオストーリー理解研究の新しい視点を提供することを期待している。
関連論文リスト
- FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Co-attentional Transformers for Story-Based Video Understanding [24.211255523490692]
本稿では,ドラマなどの視覚的物語に見られる長期的依存関係をよりよく捉えるための,新しいコアテンショナルトランスフォーマーモデルを提案する。
我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-27T07:17:09Z) - Knowledge-Based Video Question Answering with Unsupervised Scene
Descriptions [27.63022376316052]
知識に基づくビデオストーリー質問応答モデルであるROLLを設計する。
ROLLでは,各タスクが,1)シーン対話処理,2)教師なし映像シーン記述生成,3)弱い教師付き方式で外部知識を取得することによって,リッチで多様な情報を抽出する役割を担っている。
与えられた質問に正しく答えるために、各インスパイアされた認知タスクによって生成された情報はトランスフォーマーを介して符号化され、モダリティ重み付け機構を介して融合される。
論文 参考訳(メタデータ) (2020-07-17T04:26:38Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - HLVU : A New Challenge to Test Deep Understanding of Movies the Way
Humans do [3.423039905282442]
本稿では,ハイレベル映像理解分野における新たな評価課題と方向性を提案する。
私たちが提案している課題は、自動ビデオ分析と理解のテストと、アクター、エンティティ、イベント、そしてそれらの関係について、いかに正確に映画を理解できるかをテストすることである。
オープンソースの映画のハイレベルビデオ理解データセットを試験的に収集し、人間の評価者がそれぞれを表現する知識グラフを構築した。
クエリのセットは、知識グラフから派生し、アクター間の関係を検索するシステムをテストするとともに、非視覚的概念の推論と検索を行う。
論文 参考訳(メタデータ) (2020-05-01T15:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。