Fugu-MT 論文翻訳(概要): VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

論文の概要: VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

arxiv url: http://arxiv.org/abs/2411.10979v2
Date: Tue, 19 Nov 2024 17:46:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.452235
Title: VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?
Title（参考訳）: VidComposition:MLLMはコンパイルされたビデオのコンポジションを解析できるか?
Authors: Yunlong Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao, Chao Huang, Jing Bi, Zeliang Zhang, Pooyan Fazli, Chenliang Xu,
Abstract要約: VidCompositionは、マルチモーダル大言語モデル(MLLM)の映像合成理解能力を評価するためのベンチマークである。これには、カメラの動き、アングル、ショットサイズ、物語構造、キャラクターの動作、感情など、様々な構成的な側面をカバーしている。 33個のオープンソースおよびプロプライエタリなMLLMを総合的に評価した結果,人的・モデル的能力の差は顕著であった。
参考スコア（独自算出の注目度）: 35.05305360406699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advancement of Multimodal Large Language Models (MLLMs) has enabled significant progress in multimodal understanding, expanding their capacity to analyze video content. However, existing evaluation benchmarks for MLLMs primarily focus on abstract video comprehension, lacking a detailed assessment of their ability to understand video compositions, the nuanced interpretation of how visual elements combine and interact within highly compiled video contexts. We introduce VidComposition, a new benchmark specifically designed to evaluate the video composition understanding capabilities of MLLMs using carefully curated compiled videos and cinematic-level annotations. VidComposition includes 982 videos with 1706 multiple-choice questions, covering various compositional aspects such as camera movement, angle, shot size, narrative structure, character actions and emotions, etc. Our comprehensive evaluation of 33 open-source and proprietary MLLMs reveals a significant performance gap between human and model capabilities. This highlights the limitations of current MLLMs in understanding complex, compiled video compositions and offers insights into areas for further improvement. The leaderboard and evaluation code are available at https://yunlong10.github.io/VidComposition/.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の進歩により、マルチモーダル理解が大幅に進歩し、ビデオコンテンツの分析能力が拡大した。しかし、MLLMの既存の評価ベンチマークは、主に抽象的なビデオ理解に焦点を当てており、ビデオ構成を理解する能力の詳細な評価や、高度にコンパイルされたビデオコンテキスト内で視覚要素がどのように結合し相互作用するかの微妙な解釈を欠いている。そこで我々は,MLLMの映像合成理解能力を評価するために,慎重に編集したビデオと撮影レベルのアノテーションを用いた新しいベンチマークであるVidCompositionを紹介した。 VidCompositionには、カメラの動き、アングル、ショットサイズ、物語構造、キャラクターアクション、感情など、さまざまな構成的な側面をカバーしている。 33個のオープンソースおよびプロプライエタリなMLLMを総合的に評価した結果,人的・モデル的能力の差が顕著であった。これは、複雑な、コンパイルされたビデオ合成を理解する上で、現在のMLLMの限界を強調し、さらなる改善のための領域に関する洞察を提供する。リーダーボードと評価コードはhttps://yunlong10.github.io/VidComposition/で公開されている。

関連論文リスト

Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。 LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-15T13:56:14Z)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。 InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-01-21T18:59:00Z)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳（メタデータ） (2024-12-31T18:56:46Z)
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文参考訳（メタデータ） (2024-12-31T15:53:50Z)
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models [85.10375181040436]
本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。 GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
論文参考訳（メタデータ） (2024-10-13T05:35:09Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-03-25T17:59:09Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。