論文の概要: VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2601.21915v2
- Date: Sun, 01 Feb 2026 10:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.796048
- Title: VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models
- Title(参考訳): VideoAesBench: 大規模マルチモーダルモデルの映像美観知覚能力のベンチマーク
- Authors: Yunhao Li, Sijing Wu, Zhilin Gao, Zicheng Zhang, Qi Jia, Huiyu Duan, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: 本稿では,大規模マルチモーダルモデルの美的品質に対する理解を評価するためのベンチマークであるVideoAesBenchを紹介する。
VideoAesBenchには、ユーザ生成(UGC)、AIGC(AIGC)、圧縮されたロボット生成(RGC)、ゲームビデオなど、さまざまなコンテンツがある。
以上の結果から,現在のLMMは基本的な映像美学の知覚能力しか含んでおらず,その性能は不完全で不正確であることが示唆された。
- 参考スコア(独自算出の注目度): 99.14832826329739
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large multimodal models (LMMs) have demonstrated outstanding capabilities in various visual perception tasks, which has in turn made the evaluation of LMMs significant. However, the capability of video aesthetic quality assessment, which is a fundamental ability for human, remains underexplored for LMMs. To address this, we introduce VideoAesBench, a comprehensive benchmark for evaluating LMMs' understanding of video aesthetic quality. VideoAesBench has several significant characteristics: (1) Diverse content including 1,804 videos from multiple video sources including user-generated (UGC), AI-generated (AIGC), compressed, robotic-generated (RGC), and game videos. (2) Multiple question formats containing traditional single-choice questions, multi-choice questions, True or False questions, and a novel open-ended questions for video aesthetics description. (3) Holistic video aesthetics dimensions including visual form related questions from 5 aspects, visual style related questions from 4 aspects, and visual affectiveness questions from 3 aspects. Based on VideoAesBench, we benchmark 23 open-source and commercial large multimodal models. Our findings show that current LMMs only contain basic video aesthetics perception ability, their performance remains incomplete and imprecise. We hope our VideoAesBench can be served as a strong testbed and offer insights for explainable video aesthetics assessment. The data will be released on https://github.com/michaelliyunhao/VideoAesBench
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、様々な視覚知覚タスクにおいて優れた機能を示し、その結果、LMMの評価が重要になった。
しかし、人間の基本的な能力である映像の美的品質評価の能力は、LMMには未熟である。
そこで本研究では,LMMの映像美的品質に対する理解を評価するための総合的なベンチマークであるVideoAesBenchを紹介する。
1) ユーザ生成(UGC)、AIGC(AIGC)、圧縮、ロボット生成(RGC)、ゲームビデオなど、複数のビデオソースからの1,804本のビデオを含む横コンテンツ。
2) 従来の単一選択質問, 複数選択質問, 真実質問, 偽質問, ビデオ美学記述のための新しいオープンエンド質問を含む複数の質問形式について検討した。
3) 立体映像の美的側面には,5面からの視覚形態関連質問,4面からの視覚スタイル関連質問,3面からの視覚的情緒性質問が含まれる。
VideoAesBenchに基づいて、23のオープンソースおよび商用大規模マルチモーダルモデルをベンチマークする。
以上の結果から,現在のLMMは基本的な映像美学の知覚能力しか含んでおらず,その性能は不完全で不正確であることが示唆された。
VideoAesBenchを強力なテストベッドとして提供し、説明可能なビデオ美学評価のための洞察を提供することを期待しています。
データはhttps://github.com/michaelliyunhao/VideoAesBenchで公開される。
関連論文リスト
- HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [93.73583158211115]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。
2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。
以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:05:00Z) - VideoVista: A Versatile Benchmark for Video Understanding and Reasoning [46.838692817107116]
さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。
VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。
19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
論文 参考訳(メタデータ) (2024-06-17T08:09:00Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。