論文の概要: FunQA: Towards Surprising Video Comprehension
- arxiv url: http://arxiv.org/abs/2306.14899v1
- Date: Mon, 26 Jun 2023 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:10:22.057373
- Title: FunQA: Towards Surprising Video Comprehension
- Title(参考訳): FunQA: 意外なビデオ理解を目指して
- Authors: Binzhu Xie, Sicheng Zhang, Zitang Zhou, Bo Li, Yuanhan Zhang, Jack
Hessel, Jingkang Yang, Ziwei Liu
- Abstract要約: 本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。
FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
- 参考スコア(独自算出の注目度): 34.278173555719654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surprising videos, e.g., funny clips, creative performances, or visual
illusions, attract significant attention. Enjoyment of these videos is not
simply a response to visual stimuli; rather, it hinges on the human capacity to
understand (and appreciate) commonsense violations depicted in these videos. We
introduce FunQA, a challenging video question answering (QA) dataset
specifically designed to evaluate and enhance the depth of video reasoning
based on counter-intuitive and fun videos. Unlike most video QA benchmarks
which focus on less surprising contexts, e.g., cooking or instructional videos,
FunQA covers three previously unexplored types of surprising videos: 1)
HumorQA, 2) CreativeQA, and 3) MagicQA. For each subset, we establish rigorous
QA tasks designed to assess the model's capability in counter-intuitive
timestamp localization, detailed video description, and reasoning around
counter-intuitiveness. We also pose higher-level tasks, such as attributing a
fitting and vivid title to the video, and scoring the video creativity. In
total, the FunQA benchmark consists of 312K free-text QA pairs derived from
4.3K video clips, spanning a total of 24 video hours. Extensive experiments
with existing VideoQA models reveal significant performance gaps for the FunQA
videos across spatial-temporal reasoning, visual-centered reasoning, and
free-text generation.
- Abstract(参考訳): 驚くべきビデオ、例えば面白いクリップ、創造的なパフォーマンス、あるいは視覚錯覚は、大きな注目を集めている。
これらのビデオの楽しみは、単に視覚刺激に対する反応ではなく、これらのビデオに描かれた常識違反を理解する(そして評価する)人間の能力にかかっている。
本稿では,直感的かつ楽しいビデオに基づくビデオ推論の深度評価と向上を目的とした,挑戦的なビデオ質問応答(QA)データセットFunQAを紹介する。
多くのビデオqaベンチマークとは異なり、funqaは、料理やインストラクションビデオなど、あまり意外ではないコンテキストに焦点を当てている。
1)ユーモカ,
2)CreativeQA,及び
3)マジックカー。
各サブセットに対して,直観的タイムスタンプのローカライズ,詳細なビデオ記述,直観的対処に関する推論において,モデルの能力を評価するように設計された厳密なqaタスクを確立する。
また,映像に適度で鮮明なタイトルを付与し,映像クリエイティビティをスコアするなど,高レベルなタスクも行う。
FunQAベンチマークは4.3Kのビデオクリップから312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
既存のビデオQAモデルによる大規模な実験では、空間的時間的推論、視覚中心推論、自由テキスト生成にまたがるFunQAビデオのパフォーマンスギャップが顕著である。
関連論文リスト
- ReasVQA: Advancing VideoQA with Imperfect Reasoning Process [38.4638171723351]
textbfReasVQA (Reasoning-enhanced Video Question Answering) は、MLLM(Multimodal Large Language Models)が生成する推論プロセスを活用して、ビデオQAモデルの性能を向上させる新しい手法である。
NExT-QAでは+2.9、STARでは+7.3、IntentQAでは+5.9が大幅に改善された。
論文 参考訳(メタデータ) (2025-01-23T10:35:22Z) - HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文 参考訳(メタデータ) (2020-05-07T09:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。