論文の概要: Understanding Virality: A Rubric based Vision-Language Model Framework for Short-Form Edutainment Evaluation
- arxiv url: http://arxiv.org/abs/2512.21402v1
- Date: Wed, 24 Dec 2025 19:43:59 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:59:08.542176
- Title: Understanding Virality: A Rubric based Vision-Language Model Framework for Short-Form Edutainment Evaluation
- Title(参考訳): 仮想性を理解する: 短期間のエデュタインメント評価のためのルーブリックベースの視覚言語モデルフレームワーク
- Authors: Arnav Gupta, Gurekas Singh Sahney, Hardik Rathi, Abhishek Chandwani, Ishaan Gupta, Pratik Narang, Dhruv Kumar,
- Abstract要約: VideoScore-2は、特定のオーディオヴィジュアル属性が実際の観客のエンゲージメントに与える影響を捉えていない。
本稿では、視覚言語モデル(VLM)を用いて教師なしの視覚的特徴を抽出するデータ駆動評価フレームワークを提案する。
我々のアプローチは、堅牢で説明可能なビデオ理解へと進む。
- 参考スコア(独自算出の注目度): 8.15791379444665
- License:
- Abstract: Evaluating short-form video content requires moving beyond surface-level quality metrics toward human-aligned, multimodal reasoning. While existing frameworks like VideoScore-2 assess visual and semantic fidelity, they do not capture how specific audiovisual attributes drive real audience engagement. In this work, we propose a data-driven evaluation framework that uses Vision-Language Models (VLMs) to extract unsupervised audiovisual features, clusters them into interpretable factors, and trains a regression-based evaluator to predict engagement on short-form edutainment videos. Our curated YouTube Shorts dataset enables systematic analysis of how VLM-derived features relate to human engagement behavior. Experiments show strong correlations between predicted and actual engagement, demonstrating that our lightweight, feature-based evaluator provides interpretable and scalable assessments compared to traditional metrics (e.g., SSIM, FID). By grounding evaluation in both multimodal feature importance and human-centered engagement signals, our approach advances toward robust and explainable video understanding.
- Abstract(参考訳): ショートフォームビデオコンテンツを評価するには、表面品質のメトリクスを超えて、人間に合わせたマルチモーダルな推論に移行する必要がある。
VideoScore-2のような既存のフレームワークは、視覚的およびセマンティックな忠実さを評価するが、特定のオーディオヴィジュアル属性が実際のオーディエンスへのエンゲージメントに与える影響を捉えていない。
本研究では、視覚言語モデル(VLM)を用いて、教師なしの視覚的特徴を抽出し、それらを解釈可能な要素に分類し、回帰に基づく評価器を訓練し、短い形式のエデュテイメントビデオのエンゲージメントを予測するデータ駆動評価フレームワークを提案する。
我々のキュレートしたYouTube Shortsデータセットは、VLMに由来する機能が人間のエンゲージメント行動にどう関係するかを体系的に分析することを可能にする。
実験は予測と実際のエンゲージメントの間に強い相関関係を示し、我々の軽量で機能ベースの評価器が従来のメトリクス(SSIM、FIDなど)と比較して解釈可能でスケーラブルな評価を提供することを示した。
マルチモーダルな特徴重要度と人間中心のエンゲージメント信号の両面から評価を行うことにより,本手法は頑健で説明可能な映像理解に向けて前進する。
関連論文リスト
- LUST: A Multi-Modal Framework with Hierarchical LLM-based Scoring for Learned Thematic Significance Tracking in Multimedia Content [0.0]
Learned User Significance Tracker (LUST)は、ビデオコンテンツを分析し、そのセグメントの主題的関連性を定量化するように設計されたフレームワークである。
中心となるイノベーションは、Large Language Models (LLMs) を用いた階層的で2段階の関連性スコアリングメカニズムにある。
LUSTフレームワークは、ユーザ定義の重要度を微妙に認識し、視覚化された関連スコアと包括的な分析ログを備えた注釈付き動画を出力することを目的としている。
論文 参考訳(メタデータ) (2025-08-06T11:48:51Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs [18.07249962240035]
ビデオ大言語モデル(ビデオ-LLM)は、マルチモーダル推論を必要とする現実のアプリケーションにますます統合されている。
これらのモデルが視覚的エビデンスと矛盾する場合でも、ユーザ入力と整合する傾向は、そのような文脈において彼らの信頼性を損なう。
我々は,最新のビデオLLMにおけるサイコファンティックな振る舞いを評価するための最初のベンチマークであるVISE(Video-LLM Sycophancy Benchmarking and Evaluation)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:00:21Z) - FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning [15.363132825156477]
大規模視覚言語モデル(LVLM)の評価に適した人中心ベンチマークであるFIOVAを紹介する。
実際のビデオは3,002本(それぞれ33.6本)で、それぞれが5つのアノテーションによって独立して注釈付けされている。
本稿では,アノテータのコンセンサスから得られる認知重みを組み込んだ事象レベルの評価指標であるFIOVA-DQを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。