Fugu-MT 論文翻訳(概要): FunQA: Towards Surprising Video Comprehension

論文の概要: FunQA: Towards Surprising Video Comprehension

arxiv url: http://arxiv.org/abs/2306.14899v2
Date: Fri, 22 Mar 2024 13:24:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 23:38:50.945868
Title: FunQA: Towards Surprising Video Comprehension
Title（参考訳）: FunQA: 意外なビデオの理解を目指して
Authors: Binzhu Xie, Sicheng Zhang, Zitang Zhou, Bo Li, Yuanhan Zhang, Jack Hessel, Jingkang Yang, Ziwei Liu,
Abstract要約: 本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
参考スコア（独自算出の注目度）: 64.58663825184958
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Surprising videos, such as funny clips, creative performances, or visual illusions, attract significant attention. Enjoyment of these videos is not simply a response to visual stimuli; rather, it hinges on the human capacity to understand (and appreciate) commonsense violations depicted in these videos. We introduce FunQA, a challenging video question-answering (QA) dataset specifically designed to evaluate and enhance the depth of video reasoning based on counter-intuitive and fun videos. Unlike most video QA benchmarks which focus on less surprising contexts, e.g., cooking or instructional videos, FunQA covers three previously unexplored types of surprising videos: 1) HumorQA, 2) CreativeQA, and 3) MagicQA. For each subset, we establish rigorous QA tasks designed to assess the model's capability in counter-intuitive timestamp localization, detailed video description, and reasoning around counter-intuitiveness. We also pose higher-level tasks, such as attributing a fitting and vivid title to the video and scoring the video creativity. In total, the FunQA benchmark consists of 312K free-text QA pairs derived from 4.3K video clips, spanning a total of 24 video hours. Moreover, we propose FunMentor, an agent designed for Vision-Language Models (VLMs) that uses multi-turn dialogues to enhance models' understanding of counter-intuitiveness. Extensive experiments with existing VLMs demonstrate the effectiveness of FunMentor and reveal significant performance gaps for the FunQA videos across spatial-temporal reasoning, visual-centered reasoning, and free-text generation.
Abstract（参考訳）: 面白いクリップ、クリエイティブなパフォーマンス、視覚的な錯覚といった驚くべきビデオは、大きな注目を集めている。これらのビデオの喜びは、単に視覚刺激に対する反応ではなく、これらのビデオで描かれた常識違反を理解し(そして評価)するための人間の能力に依存している。本稿では,直感的かつ楽しいビデオに基づくビデオ推論の深度評価と深度向上を目的とした,挑戦的なビデオ質問応答(QA)データセットFunQAを紹介する。多くのビデオQAベンチマークでは、例えば料理や指導ビデオなど、意外性のないコンテキストに重点を置いているが、FunQAでは、これまで探索されていなかった3種類の驚くべきビデオについて取り上げている。 1)HummorQA, 2)CreativeQA,及び 3)マジックQA。各サブセットに対して、反直感的タイムスタンプの局所化、詳細なビデオ記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。私たちはまた、ビデオに適した鮮やかなタイトルをもたらし、ビデオのクリエイティビティを評価するといった、より高いレベルのタスクも行います。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。さらに,視覚言語モデル(VLM)のためのエージェントであるFunMentorを提案する。既存のVLMによる大規模な実験は、FunMentorの有効性を示し、空間的時間的推論、視覚中心推論、自由テキスト生成にまたがるFunQAビデオのパフォーマンスギャップを明らかにしている。

関連論文リスト

FIQ: Fundamental Question Generation with the Integration of Question Embeddings for Video Question Answering [26.585985828583304]
ビデオ質問(英語: Video question of answering、VQA)とは、ある質問に答えるためにビデオの解釈を必要とするタスクである。本稿では,ビデオの基本的な理解を深めることにより,モデルの推論能力を高めるための新しい手法を提案する。
論文参考訳（メタデータ） (2025-07-17T06:19:38Z)
ImplicitQA: Going beyond frames towards Implicit Video Reasoning [36.65883181090953]
ImplicitQAは暗黙の推論でモデルをテストするために設計された新しいベンチマークである。 320以上の高品質なクリエイティビティビデオクリップから得られた、1Kの微妙な注釈付きQAペアで構成されている。
論文参考訳（メタデータ） (2025-06-26T19:53:54Z)
ReasVQA: Advancing VideoQA with Imperfect Reasoning Process [38.4638171723351]
textbfReasVQA (Reasoning-enhanced Video Question Answering) は、MLLM(Multimodal Large Language Models)が生成する推論プロセスを活用して、ビデオQAモデルの性能を向上させる新しい手法である。 NExT-QAでは+2.9、STARでは+7.3、IntentQAでは+5.9が大幅に改善された。
論文参考訳（メタデータ） (2025-01-23T10:35:22Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
VideoCogQA: A Controllable Benchmark for Evaluating Cognitive Abilities in Video-Language Models [19.215440092652507]
LVLM(Large Video-Language Models)は、マルチモーダルビデオ理解において有望な結果をもたらす。これらのモデルが高レベルのタスクに必要な認知能力を持っているか、特に象徴的、抽象的な知覚にかかわっているかは不明だ。ゲーム環境にインスパイアされたスケーラブルで完全に制御可能なベンチマークであるVideoCogQAを提案する。プログラムエンジンを介して合成ビデオを生成することで、VideoCogQAは視覚要素、時間的ダイナミクス、タスクの難しさを細かく制御できる。
論文参考訳（メタデータ） (2024-11-14T00:26:26Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文参考訳（メタデータ） (2024-08-08T05:14:07Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。 VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文参考訳（メタデータ） (2023-05-23T10:26:42Z)
Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文参考訳（メタデータ） (2022-03-02T16:34:09Z)
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文参考訳（メタデータ） (2021-05-18T04:56:46Z)
DramaQA: Character-Centered Video Story Understanding with Hierarchical QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文参考訳（メタデータ） (2020-05-07T09:44:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。