論文の概要: DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA
- arxiv url: http://arxiv.org/abs/2005.03356v2
- Date: Thu, 17 Dec 2020 02:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 22:22:25.503922
- Title: DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA
- Title(参考訳): DramaQA:階層型QAによる文字中心のビデオストーリー理解
- Authors: Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang,
Minsu Lee, Byoung-Tak Zhang
- Abstract要約: 本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
- 参考スコア(独自算出の注目度): 24.910132013543947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress on computer vision and natural language processing,
developing a machine that can understand video story is still hard to achieve
due to the intrinsic difficulty of video story. Moreover, researches on how to
evaluate the degree of video understanding based on human cognitive process
have not progressed as yet. In this paper, we propose a novel video question
answering (Video QA) task, DramaQA, for a comprehensive understanding of the
video story. The DramaQA focuses on two perspectives: 1) Hierarchical QAs as an
evaluation metric based on the cognitive developmental stages of human
intelligence. 2) Character-centered video annotations to model local coherence
of the story. Our dataset is built upon the TV drama "Another Miss Oh" and it
contains 17,983 QA pairs from 23,928 various length video clips, with each QA
pair belonging to one of four difficulty levels. We provide 217,308 annotated
images with rich character-centered annotations, including visual bounding
boxes, behaviors and emotions of main characters, and coreference resolved
scripts. Additionally, we suggest Multi-level Context Matching model which
hierarchically understands character-centered representations of video to
answer questions. We release our dataset and model publicly for research
purposes, and we expect our work to provide a new perspective on video story
understanding research.
- Abstract(参考訳): 近年のコンピュータビジョンと自然言語処理の進歩にもかかわらず、ビデオストーリーの本質的な難しさのため、ビデオストーリーを理解できる機械の開発はいまだに困難である。
また,人間の認知過程に基づく映像理解の程度を評価する方法については,まだ研究が進んでいない。
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
DramaQAは2つの視点に焦点を当てている。
1)人間の知能の認知発達段階に基づく評価指標としての階層的QA。
2) ストーリーの局所的コヒーレンスをモデル化するための文字中心のビデオアノテーション。
我々のデータセットは、テレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAビデオクリップが23,928本あり、各QAペアは4つの難易度のうちの1つに属している。
我々は217,308個のアノテーション付き画像を提供し,視覚境界ボックスや主要文字の動作や感情,解決されたスクリプトの同時参照など,文字中心のアノテーションを充実させた。
さらに,ビデオの文字中心表現を階層的に理解し,質問に答えるマルチレベルコンテキストマッチングモデルを提案する。
我々は,研究目的のためにデータセットとモデルを公開し,ビデオストーリー理解研究の新しい視点を提供することを期待している。
関連論文リスト
- FunQA: Towards Surprising Video Comprehension [34.278173555719654]
本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。
FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - CogME: A Novel Evaluation Metric for Video Understanding Intelligence [0.0]
我々は、理解のパフォーマンスを詳細に説明し、評価するために、十分に作られたフレームワークが必要であると論じる。
CogMEは、ターゲット、内容、思考の3つの認知モジュールで構成されている。
我々は、ビデオ理解知能の検証のためのビデオQAデータセットの適合性を評価する。
論文 参考訳(メタデータ) (2021-07-21T02:33:37Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Co-attentional Transformers for Story-Based Video Understanding [24.211255523490692]
本稿では,ドラマなどの視覚的物語に見られる長期的依存関係をよりよく捉えるための,新しいコアテンショナルトランスフォーマーモデルを提案する。
我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-27T07:17:09Z) - Knowledge-Based Video Question Answering with Unsupervised Scene
Descriptions [27.63022376316052]
知識に基づくビデオストーリー質問応答モデルであるROLLを設計する。
ROLLでは,各タスクが,1)シーン対話処理,2)教師なし映像シーン記述生成,3)弱い教師付き方式で外部知識を取得することによって,リッチで多様な情報を抽出する役割を担っている。
与えられた質問に正しく答えるために、各インスパイアされた認知タスクによって生成された情報はトランスフォーマーを介して符号化され、モダリティ重み付け機構を介して融合される。
論文 参考訳(メタデータ) (2020-07-17T04:26:38Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。