論文の概要: RefineShot: Rethinking Cinematography Understanding with Foundational Skill Evaluation
- arxiv url: http://arxiv.org/abs/2510.02423v1
- Date: Thu, 02 Oct 2025 16:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.104668
- Title: RefineShot: Rethinking Cinematography Understanding with Foundational Skill Evaluation
- Title(参考訳): RefineShot: 基礎的スキル評価によるシネマトグラフィー理解の再考
- Authors: Hang Wu, Yujun Cai, Haonan Ge, Hongkai Chen, Ming-Hsuan Yang, Yiwei Wang,
- Abstract要約: シネマトグラフィーの理解は、現実世界の応用におけるマルチモーダルな理解を促進し、映画やメディアにおけるコヒーレントなコンテンツ創造を支えている。
ShotBenchはこのタスクの最も包括的なベンチマークであり、ShotVLは最先端の結果を達成している。
しかし,ShotBench と ShotVL における不明瞭なオプション設計は,整合性や命令順守が信頼性を損なう原因となっている。
これらの問題を克服するために、一貫したオプション再構成を通じてShotBenchを体系的に洗練し、ShotVLの推論動作を初めて批判的に分析し、拡張された評価プロトコルを導入する。
- 参考スコア(独自算出の注目度): 53.48857764937677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cinematography understanding refers to the ability to recognize not only the visual content of a scene but also the cinematic techniques that shape narrative meaning. This capability is attracting increasing attention, as it enhances multimodal understanding in real-world applications and underpins coherent content creation in film and media. As the most comprehensive benchmark for this task, ShotBench spans a wide range of cinematic concepts and VQA-style evaluations, with ShotVL achieving state-of-the-art results on it. However, our analysis reveals that ambiguous option design in ShotBench and ShotVL's shortcomings in reasoning consistency and instruction adherence undermine evaluation reliability, limiting fair comparison and hindering future progress. To overcome these issues, we systematically refine ShotBench through consistent option restructuring, conduct the first critical analysis of ShotVL's reasoning behavior, and introduce an extended evaluation protocol that jointly assesses task accuracy and core model competencies. These efforts lead to RefineShot, a refined and expanded benchmark that enables more reliable assessment and fosters future advances in cinematography understanding.
- Abstract(参考訳): シネマトグラフィー理解(シネマトグラフィーの理解)とは、シーンの視覚的内容だけでなく、物語の意味を形作るシネマティック技術も認識する能力である。
この能力は、現実世界の応用におけるマルチモーダルな理解を高め、映画やメディアにおけるコヒーレントなコンテンツ創造を支えているため、注目を集めている。
このタスクの最も包括的なベンチマークとして、ShotBenchは幅広い映画コンセプトとVQAスタイルの評価にまたがっており、ShotVLは最先端の結果を達成している。
しかし,ShotBench と ShotVL における不明瞭なオプション設計は,整合性や命令の順守が評価の信頼性を損なうこと,公正な比較の制限,今後の進歩を妨げること,といった欠点を指摘した。
これらの課題を克服するために、一貫したオプション再構成を通じてShotBenchを体系的に洗練し、ShotVLの推論動作を初めて批判的に分析し、タスク精度とコアモデル能力を共同で評価する拡張評価プロトコルを導入する。
これらの取り組みにより、RefineShotはより信頼性の高い評価を可能にし、撮影の理解における将来の進歩を促進する、洗練され、拡張されたベンチマークである。
関連論文リスト
- VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning [50.34205095371895]
映像品質評価は、知覚的品質劣化を客観的に定量化することを目的としている。
既存のVQAモデルには2つの限界がある。
推論に基づくVQAフレームワークである textbfVQAThinker を提案する。
論文 参考訳(メタデータ) (2025-08-08T06:16:23Z) - ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models [87.43784424444128]
映画言語理解に特化したベンチマークであるShotBenchを紹介する。
画像とビデオクリップから3.5k以上の専門家によるQAペアを収録し、200本以上の称賛された(オスカー賞にノミネートされた)映画から細心の注意を払ってキュレートしている。
ShotBench上でのビジョン・ランゲージ・モデル24件の評価では,特に細粒度の視覚的手がかりや複雑な空間的推論に苦慮している。
論文 参考訳(メタデータ) (2025-06-26T15:09:21Z) - VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning [22.357792064450955]
Chain-of-Thought (CoT)推論は、大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)の機能を大幅に向上させた。
VCR-Benchは,LVLMのビデオ・チェーン・オブ・ソート・リ推論機能を包括的に評価する新しいベンチマークである。
VCR-Benchは、さまざまなビデオコンテンツと期間にまたがる859の動画と、1,034の高品質な質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2025-04-10T17:59:03Z) - Are Large Vision Language Models Good Game Players? [25.49713745405194]
大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方について理解と推論において顕著な能力を示した。
既存のLVLMの評価手法は、主にVisual Question Answeringのようなベンチマークに基づいており、LVLMの能力の全範囲を捉えていないことが多い。
構造化環境におけるLVLMの認知・推論スキルを総合的に評価するためのゲームベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T07:29:03Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。