論文の概要: FunQA: Towards Surprising Video Comprehension
- arxiv url: http://arxiv.org/abs/2306.14899v1
- Date: Mon, 26 Jun 2023 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:10:22.057373
- Title: FunQA: Towards Surprising Video Comprehension
- Title(参考訳): FunQA: 意外なビデオ理解を目指して
- Authors: Binzhu Xie, Sicheng Zhang, Zitang Zhou, Bo Li, Yuanhan Zhang, Jack
Hessel, Jingkang Yang, Ziwei Liu
- Abstract要約: 本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。
FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
- 参考スコア(独自算出の注目度): 34.278173555719654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surprising videos, e.g., funny clips, creative performances, or visual
illusions, attract significant attention. Enjoyment of these videos is not
simply a response to visual stimuli; rather, it hinges on the human capacity to
understand (and appreciate) commonsense violations depicted in these videos. We
introduce FunQA, a challenging video question answering (QA) dataset
specifically designed to evaluate and enhance the depth of video reasoning
based on counter-intuitive and fun videos. Unlike most video QA benchmarks
which focus on less surprising contexts, e.g., cooking or instructional videos,
FunQA covers three previously unexplored types of surprising videos: 1)
HumorQA, 2) CreativeQA, and 3) MagicQA. For each subset, we establish rigorous
QA tasks designed to assess the model's capability in counter-intuitive
timestamp localization, detailed video description, and reasoning around
counter-intuitiveness. We also pose higher-level tasks, such as attributing a
fitting and vivid title to the video, and scoring the video creativity. In
total, the FunQA benchmark consists of 312K free-text QA pairs derived from
4.3K video clips, spanning a total of 24 video hours. Extensive experiments
with existing VideoQA models reveal significant performance gaps for the FunQA
videos across spatial-temporal reasoning, visual-centered reasoning, and
free-text generation.
- Abstract(参考訳): 驚くべきビデオ、例えば面白いクリップ、創造的なパフォーマンス、あるいは視覚錯覚は、大きな注目を集めている。
これらのビデオの楽しみは、単に視覚刺激に対する反応ではなく、これらのビデオに描かれた常識違反を理解する(そして評価する)人間の能力にかかっている。
本稿では,直感的かつ楽しいビデオに基づくビデオ推論の深度評価と向上を目的とした,挑戦的なビデオ質問応答(QA)データセットFunQAを紹介する。
多くのビデオqaベンチマークとは異なり、funqaは、料理やインストラクションビデオなど、あまり意外ではないコンテキストに焦点を当てている。
1)ユーモカ,
2)CreativeQA,及び
3)マジックカー。
各サブセットに対して,直観的タイムスタンプのローカライズ,詳細なビデオ記述,直観的対処に関する推論において,モデルの能力を評価するように設計された厳密なqaタスクを確立する。
また,映像に適度で鮮明なタイトルを付与し,映像クリエイティビティをスコアするなど,高レベルなタスクも行う。
FunQAベンチマークは4.3Kのビデオクリップから312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
既存のビデオQAモデルによる大規模な実験では、空間的時間的推論、視覚中心推論、自由テキスト生成にまたがるFunQAビデオのパフォーマンスギャップが顕著である。
関連論文リスト
- VideoPrism: A Foundational Visual Encoder for Video Understanding [91.33490377573166]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち30で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex
and Professional Sports [90.79212954022218]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文 参考訳(メタデータ) (2024-01-03T02:22:34Z) - CLiF-VQA: Enhancing Video Quality Assessment by Incorporating High-Level
Semantic Information related to Human Feelings [19.344063056033526]
映像品質評価(VQA)は、人間の視覚システム(HVS)による映像品質の知覚過程をシミュレートすることを目的とする。
現在のVQA研究の大部分は、ビデオの空間的および時間的領域における様々な歪みを捉えることに焦点を当てている。
本稿では,人間の感情と映像の空間的特徴の両方を考慮したCLiF-VQAを提案する。
論文 参考訳(メタデータ) (2023-11-13T05:38:44Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文 参考訳(メタデータ) (2020-05-07T09:44:58Z) - Knowledge-Based Visual Question Answering in Videos [36.23723122336639]
我々は,人気のシットコムについて,24,282対の質問応答対を用いたビデオデータセットであるKnowIT VQAを紹介する。
このデータセットは、視覚的、テキスト的、時間的コヒーレンス推論と知識に基づく質問を組み合わせる。
i) 知識の取り込みはビデオにおけるVQAの卓越した改善をもたらし, (ii) KnowIT VQAの性能は人間の精度よりかなり遅れている。
論文 参考訳(メタデータ) (2020-04-17T02:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。