論文の概要: How well can VLMs rate audio descriptions: A multi-dimensional quantitative assessment framework
- arxiv url: http://arxiv.org/abs/2602.01390v1
- Date: Sun, 01 Feb 2026 18:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.762835
- Title: How well can VLMs rate audio descriptions: A multi-dimensional quantitative assessment framework
- Title(参考訳): VLMによる音声記述の精度評価:多次元定量的評価フレームワーク
- Authors: Lana Do, Gio Jung, Juvenal Francisco Barajas, Andrew Taylor Scott, Shasta Ihorn, Alexander Mario Blum, Vassilis Athitsos, Ilmi Yoon,
- Abstract要約: 我々は、未断のフル長ビデオのための多次元アセスメントフレームワークを開発した。
我々は, VLM と人間のレーダの能力を評価するために, 項目応答理論を用いて, 専門家が確立した根拠真理に対する評価を行う。
- 参考スコア(独自算出の注目度): 36.547200240429845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital video is central to communication, education, and entertainment, but without audio description (AD), blind and low-vision audiences are excluded. While crowdsourced platforms and vision-language-models (VLMs) expand AD production, quality is rarely checked systematically. Existing evaluations rely on NLP metrics and short-clip guidelines, leaving questions about what constitutes quality for full-length content and how to assess it at scale. To address these questions, we first developed a multi-dimensional assessment framework for uninterrupted, full-length video, grounded in professional guidelines and refined by accessibility specialists. Second, we integrated this framework into a comprehensive methodological workflow, utilizing Item Response Theory, to assess the proficiency of VLM and human raters against expert-established ground truth. Findings suggest that while VLMs can approximate ground-truth ratings with high alignment, their reasoning was found to be less reliable and actionable than that of human respondents. These insights show the potential of hybrid evaluation systems that leverage VLMs alongside human oversight, offering a path towards scalable AD quality control.
- Abstract(参考訳): デジタルビデオはコミュニケーション、教育、エンターテイメントの中心であるが、音声記述(AD)がなければ、視覚障害者や低視野観客は除外される。
クラウドソースプラットフォームとビジョン言語モデル(VLM)はAD生産を拡大する一方、品質は体系的にチェックされることは稀である。
既存の評価は、NLPメトリクスとショートクリップガイドラインに依存しており、フル長のコンテンツの品質を構成するものや、大規模に評価する方法に関する疑問を残している。
これらの問題に対処するために,我々はまず,プロのガイドラインに基づいて,アクセシビリティの専門家によって洗練された,中断のないフル長ビデオのための多次元アセスメントフレームワークを開発した。
第2に,本フレームワークを項目応答理論を利用した総合的方法論ワークフローに統合し,専門家が確立した根拠真理に対して,VLMと人間レーダの習熟度を評価する。
結果から, VLMは高いアライメントで地中信頼度を近似できるが, その推論は人間よりも信頼性が低く, 行動性も低いことが示唆された。
これらの知見は、VLMを人間の監視とともに活用し、スケーラブルなAD品質管理への道筋を提供するハイブリッド評価システムの可能性を示している。
関連論文リスト
- Understanding Virality: A Rubric based Vision-Language Model Framework for Short-Form Edutainment Evaluation [8.15791379444665]
VideoScore-2は、特定のオーディオヴィジュアル属性が実際の観客のエンゲージメントに与える影響を捉えていない。
本稿では、視覚言語モデル(VLM)を用いて教師なしの視覚的特徴を抽出するデータ駆動評価フレームワークを提案する。
我々のアプローチは、堅牢で説明可能なビデオ理解へと進む。
論文 参考訳(メタデータ) (2025-12-24T19:43:59Z) - QA-VLM: Providing human-interpretable quality assessment for wire-feed laser additive manufacturing parts with Vision Language Models [6.979486276502989]
添加物製造(AM)における品質評価(QA)は、熟練した人間のオペレーターの専門知識と一定の注意に大きく依存することが多い。
本稿では,視覚言語モデル(VLM)の注意機構と推論機能を活用し,人間の解釈可能な品質評価を生成する新しいQA-VLMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-20T16:51:55Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - KNVQA: A Benchmark for evaluation knowledge-based VQA [8.602776661652083]
大きな視覚言語モデル(LVLM)は、視覚システムや言語システムにおいて、その強い知覚と推論能力のために大きな進歩を遂げている。
LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。
マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。
論文 参考訳(メタデータ) (2023-11-21T14:39:18Z) - VLM-Eval: A General Evaluation on Video Large Language Models [16.92780012093112]
キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統合評価を導入する。
本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。
ビデオLLMを学術データセットを超えて評価し,数百対のビデオインストラクションペアのみを微調整で駆動シナリオの認識と推論能力を示す。
論文 参考訳(メタデータ) (2023-11-20T16:02:10Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。