論文の概要: ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.21356v2
- Date: Fri, 27 Jun 2025 05:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 13:06:01.366342
- Title: ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
- Title(参考訳): ShotBench:ビジョンランゲージモデルにおけるエキスパートレベルシネマティック理解
- Authors: Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu,
- Abstract要約: 映画言語理解に特化したベンチマークであるShotBenchを紹介する。
画像とビデオクリップから3.5k以上の専門家によるQAペアを収録し、200本以上の称賛された(オスカー賞にノミネートされた)映画から細心の注意を払ってキュレートしている。
ShotBench上でのビジョン・ランゲージ・モデル24件の評価では,特に細粒度の視覚的手がかりや複雑な空間的推論に苦慮している。
- 参考スコア(独自算出の注目度): 87.43784424444128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cinematography, the fundamental visual language of film, is essential for conveying narrative, emotion, and aesthetic quality. While recent Vision-Language Models (VLMs) demonstrate strong general visual understanding, their proficiency in comprehending the nuanced cinematic grammar embedded within individual shots remains largely unexplored and lacks robust evaluation. This critical gap limits both fine-grained visual comprehension and the precision of AI-assisted video generation. To address this, we introduce ShotBench, a comprehensive benchmark specifically designed for cinematic language understanding. It features over 3.5k expert-annotated QA pairs from images and video clips, meticulously curated from over 200 acclaimed (predominantly Oscar-nominated) films and spanning eight key cinematography dimensions. Our evaluation of 24 leading VLMs on ShotBench reveals their substantial limitations: even the top-performing model achieves less than 60% average accuracy, particularly struggling with fine-grained visual cues and complex spatial reasoning. To catalyze advancement in this domain, we construct ShotQA, a large-scale multimodal dataset comprising approximately 70k cinematic QA pairs. Leveraging ShotQA, we develop ShotVL through supervised fine-tuning and Group Relative Policy Optimization. ShotVL significantly outperforms all existing open-source and proprietary models on ShotBench, establishing new state-of-the-art performance. We open-source our models, data, and code to foster rapid progress in this crucial area of AI-driven cinematic understanding and generation.
- Abstract(参考訳): 映画の基本的視覚言語であるシネマトグラフィーは、物語、感情、美的品質を伝えるために不可欠である。
近年のビジョン・ランゲージ・モデル (VLM) は、視覚的理解が強く、個々のショットに埋め込まれたニュアンスな映画文法を解釈する能力は、ほとんど解明されておらず、堅牢な評価が得られていない。
この限界は、きめ細かい視覚的理解とAI支援ビデオ生成の精度の両方を制限する。
そこで本研究では,映像言語理解に特化した総合ベンチマークであるShotBenchを紹介する。
画像とビデオクリップから3.5k以上の専門家が注釈を付けたQAペア、200以上の評価された(オスカー賞にノミネートされた)映画から細心の注意を払ってキュレートされ、8つの主要撮影領域にまたがる。
ShotBench上での24個の主要なVLMの評価では, 高い性能モデルでも平均精度は60%以下であり, 特に細粒度の視覚的手がかりや複雑な空間的推論に苦慮している。
この領域の進歩を触媒するため、約70kの撮影用QAペアからなる大規模マルチモーダルデータセットShotQAを構築した。
ShotQAを活用することで、教師付き微調整とグループ相対ポリシー最適化によりShotVLを開発する。
ShotVLは、ShotBench上の既存のオープンソースおよびプロプライエタリなモデル全てを大幅に上回っており、新しい最先端のパフォーマンスを確立している。
私たちは、AI駆動の映画理解と生成において、この重要な領域における急速な進歩を促進するために、モデル、データ、コードをオープンソースにしています。
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [73.25506085339252]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.701884816475403]
ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。
既存のベンチマークでは、きめ細かい評価が不十分である。
細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文 参考訳(メタデータ) (2025-05-29T14:34:25Z) - VideoMultiAgents: A Multi-Agent Framework for Video Question Answering [11.514596823413736]
Video Question Answering (VQA) は本質的にマルチモーダル推論に依存している。
本稿では,視覚,シーングラフ解析,テキスト処理などの特殊エージェントを統合するフレームワークであるVideoMultiAgentsを紹介する。
提案手法は, 対象, 行動, 時間的遷移をハイライトするキャプションを生成する, 質問誘導キャプション生成を補足する。
論文 参考訳(メタデータ) (2025-04-25T22:08:09Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。