論文の概要: VADB: A Large-Scale Video Aesthetic Database with Professional and Multi-Dimensional Annotations
- arxiv url: http://arxiv.org/abs/2510.25238v1
- Date: Wed, 29 Oct 2025 07:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.203334
- Title: VADB: A Large-Scale Video Aesthetic Database with Professional and Multi-Dimensional Annotations
- Title(参考訳): VADB: プロと多次元のアノテーションを備えた大規模ビデオ美容データベース
- Authors: Qianqian Qiao, DanDan Zheng, Yihang Bo, Bao Peng, Heng Huang, Longteng Jiang, Huaye Wang, Jingdong Chen, Jun Zhou, Xin Jin,
- Abstract要約: VADBは最大のビデオ美学データベースで、10,490の多様なビデオが、複数の審美次元の37人のプロによって注釈付けされている。
VADB-Netは2段階のトレーニング戦略を備えたデュアルモーダル事前トレーニングフレームワークであり、スコアリングタスクにおける既存のビデオ品質アセスメントモデルよりも優れている。
- 参考スコア(独自算出の注目度): 65.0648741395158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video aesthetic assessment, a vital area in multimedia computing, integrates computer vision with human cognition. Its progress is limited by the lack of standardized datasets and robust models, as the temporal dynamics of video and multimodal fusion challenges hinder direct application of image-based methods. This study introduces VADB, the largest video aesthetic database with 10,490 diverse videos annotated by 37 professionals across multiple aesthetic dimensions, including overall and attribute-specific aesthetic scores, rich language comments and objective tags. We propose VADB-Net, a dual-modal pre-training framework with a two-stage training strategy, which outperforms existing video quality assessment models in scoring tasks and supports downstream video aesthetic assessment tasks. The dataset and source code are available at https://github.com/BestiVictory/VADB.
- Abstract(参考訳): マルチメディアコンピューティングにおいて重要な領域であるビデオ美学評価は、コンピュータビジョンと人間の認知を統合している。
その進歩は、ビデオとマルチモーダル融合の時間的ダイナミクスが画像ベースの手法の直接適用を妨げるため、標準化されたデータセットとロバストなモデルが欠如していることによって制限されている。
本研究はVADBを紹介した。VADBは,多次元の37人のプロによって注釈付けされた10,490の多様なビデオを持つ,最大規模のビデオ美学データベースである。
VADB-Netは2段階のトレーニング戦略を持つデュアルモーダル・プレトレーニング・フレームワークであり、既存の映像品質評価モデルよりも優れたスコアリングタスクと下流映像の美的評価タスクをサポートする。
データセットとソースコードはhttps://github.com/BestiVictory/VADBで入手できる。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。