論文の概要: MovieCORE: COgnitive REasoning in Movies
- arxiv url: http://arxiv.org/abs/2508.19026v2
- Date: Sun, 07 Sep 2025 15:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.316289
- Title: MovieCORE: COgnitive REasoning in Movies
- Title(参考訳): MovieCORE:映画における認知的推論
- Authors: Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu,
- Abstract要約: MovieCOREは、映画コンテンツに対する深い認知的理解を探求するために設計された、新しいデータセットである。
本稿では,複数の大規模言語モデル(LLM)を思考エージェントとして活用する,革新的なエージェントブレインストーミング手法を提案する。
既存のビデオ言語モデル(VLM)の限界に対処するため、エージェント拡張モジュール、エージェント選択拡張(ACE)を導入する。
- 参考スコア(独自算出の注目度): 39.759698550568174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MovieCORE, a novel video question answering (VQA) dataset designed to probe deeper cognitive understanding of movie content. Unlike existing datasets that focus on surface-level comprehension, MovieCORE emphasizes questions that engage System-2 thinking while remaining specific to the video material. We present an innovative agentic brainstorming approach, utilizing multiple large language models (LLMs) as thought agents to generate and refine high-quality question-answer pairs. To evaluate dataset quality, we develop a set of cognitive tests assessing depth, thought-provocation potential, and syntactic complexity. We also propose a comprehensive evaluation scheme for assessing VQA model performance on deeper cognitive tasks. To address the limitations of existing video-language models (VLMs), we introduce an agentic enhancement module, Agentic Choice Enhancement (ACE), which improves model reasoning capabilities post-training by up to 25%. Our work contributes to advancing movie understanding in AI systems and provides valuable insights into the capabilities and limitations of current VQA models when faced with more challenging, nuanced questions about cinematic content. Our project page, dataset and code can be found at https://joslefaure.github.io/assets/html/moviecore.html.
- Abstract(参考訳): 本稿では,映画コンテンツに対する理解を深めるためのビデオ質問応答(VQA)データセットであるMovieCOREを紹介する。
表面レベルの理解に焦点を当てた既存のデータセットとは異なり、MovieCOREはビデオ素材に固有のままでSystem-2思考に関わる疑問を強調している。
本稿では,複数の大規模言語モデル(LLM)を思考エージェントとして利用して,高品質な質問応答ペアを生成・洗練する,革新的なエージェントブレインストーミング手法を提案する。
データセットの品質を評価するために, 深度, 思考誘発電位, 統語的複雑さを評価する認知テストのセットを開発した。
また,より深い認知タスクにおいて,VQAモデルの性能を評価するための総合的な評価手法を提案する。
既存のビデオ言語モデル(VLM)の限界に対処するため、エージェント拡張モジュールであるエージェント選択拡張(ACE)を導入し、モデル推論能力を最大25%改善した。
我々の研究は、AIシステムにおける映画理解の進展に寄与し、映画コンテンツに関するより困難で曖昧な疑問に直面した場合、現在のVQAモデルの能力と限界に関する貴重な洞察を提供する。
私たちのプロジェクトページ、データセット、コードはhttps://joslefaure.github.io/assets/html/moviecore.htmlで参照できます。
関連論文リスト
- VideoCogQA: A Controllable Benchmark for Evaluating Cognitive Abilities in Video-Language Models [19.215440092652507]
LVLM(Large Video-Language Models)は、マルチモーダルビデオ理解において有望な結果をもたらす。
これらのモデルが高レベルのタスクに必要な認知能力を持っているか、特に象徴的、抽象的な知覚にかかわっているかは不明だ。
ゲーム環境にインスパイアされたスケーラブルで完全に制御可能なベンチマークであるVideoCogQAを提案する。
プログラムエンジンを介して合成ビデオを生成することで、VideoCogQAは視覚要素、時間的ダイナミクス、タスクの難しさを細かく制御できる。
論文 参考訳(メタデータ) (2024-11-14T00:26:26Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - CogME: A Cognition-Inspired Multi-Dimensional Evaluation Metric for Story Understanding [19.113385429326808]
本稿では,物語理解に着目したAIモデルを対象とした認知型多次元評価指標であるCogMEを紹介する。
我々は,タスクの性質を理解することに基づくメトリクスの必要性を論じ,人間の認知過程と密接に整合するように設計されている。
このアプローチは、従来の全体的なスコアを超えて洞察を提供し、より高い認知機能をターゲットにしたより洗練されたAI開発のための道を開く。
論文 参考訳(メタデータ) (2021-07-21T02:33:37Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。