論文の概要: VideoA11y: Method and Dataset for Accessible Video Description
- arxiv url: http://arxiv.org/abs/2502.20480v1
- Date: Thu, 27 Feb 2025 19:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:40:56.848669
- Title: VideoA11y: Method and Dataset for Accessible Video Description
- Title(参考訳): VideoA11y: アクセシブルなビデオ記述のためのメソッドとデータセット
- Authors: Chaoyu Li, Sid Padmanabhuni, Maryam Cheema, Hasti Seifi, Pooyan Fazli,
- Abstract要約: ビデオの説明は視覚障害者(BLV)にとって、視覚コンテンツにアクセスするのに不可欠である。
我々は,マルチモーダル大言語モデル(MLLM)とビデオアクセシビリティガイドラインを利用して,BLV個人に適した記述を生成するアプローチであるVideoA11yを紹介する。
この手法を用いて,BLVユーザが記述した4万本のビデオの最大かつ最も包括的なデータセットであるVideoA11y-40Kをキュレートした。
- 参考スコア(独自算出の注目度): 4.081116465356645
- License:
- Abstract: Video descriptions are crucial for blind and low vision (BLV) users to access visual content. However, current artificial intelligence models for generating descriptions often fall short due to limitations in the quality of human annotations within training datasets, resulting in descriptions that do not fully meet BLV users' needs. To address this gap, we introduce VideoA11y, an approach that leverages multimodal large language models (MLLMs) and video accessibility guidelines to generate descriptions tailored for BLV individuals. Using this method, we have curated VideoA11y-40K, the largest and most comprehensive dataset of 40,000 videos described for BLV users. Rigorous experiments across 15 video categories, involving 347 sighted participants, 40 BLV participants, and seven professional describers, showed that VideoA11y descriptions outperform novice human annotations and are comparable to trained human annotations in clarity, accuracy, objectivity, descriptiveness, and user satisfaction. We evaluated models on VideoA11y-40K using both standard and custom metrics, demonstrating that MLLMs fine-tuned on this dataset produce high-quality accessible descriptions. Code and dataset are available at https://people-robots.github.io/VideoA11y.
- Abstract(参考訳): ビデオの説明は視覚障害者(BLV)にとって、視覚コンテンツにアクセスするのに不可欠である。
しかしながら、現在の人工知能モデルは、トレーニングデータセット内の人間のアノテーションの品質に制限があるため、しばしば不足し、結果としてBLVユーザのニーズを完全に満たさない記述となる。
このギャップに対処するために,マルチモーダル大言語モデル(MLLM)とビデオアクセシビリティガイドラインを活用するアプローチであるVideoA11yを導入し,BLV個人に適した記述を生成する。
この手法を用いて,BLVユーザが記述した4万本のビデオの最大かつ最も包括的なデータセットであるVideoA11y-40Kをキュレートした。
347人の目撃者、40人のBLV参加者、および7人のプロの解説者を含む15のビデオカテゴリーにわたる厳密な実験は、VideoA11yの記述が初歩的な人間のアノテーションより優れており、明確さ、正確性、客観性、記述性、ユーザの満足度において訓練された人間のアノテーションに匹敵するものであることを示した。
我々は、標準とカスタムの両方のメトリクスを用いて、VideoA11y-40K上のモデルを評価し、このデータセットに微調整されたMLLMが高品質なアクセシビリティ記述を生成することを示した。
コードとデータセットはhttps://people-robots.github.io/VideoA11y.comで入手できる。
関連論文リスト
- StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification [6.762705315042178]
ロングビデオ記述では、記述間のプロットレベルの一貫性など、新しい課題が導入されている。
我々は,低レベルな視覚概念と高レベルなプロット情報の両方を取り入れた,長いビデオの濃密な記述を生成するシステムであるStoryTellerを提案する。
論文 参考訳(メタデータ) (2024-11-11T15:51:48Z) - Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison [15.363132825156477]
ビデオ記述は、ビデオ理解を評価するための基本的なタスクであり、空間的・時間的ダイナミクスの深い理解を必要とする。
ビデオ理解のための現在のベンチマークには、短いビデオの長さ、短いアノテーション、単一アノテーションの観点への依存など、注目すべき制限がある。
本稿では,LVLMと人間の理解の相違をより包括的に評価するための新しいベンチマークFIOVAを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset [7.585772927643345]
このデータセットは、テキスト・ビデオ生成タスクにおける人間の嗜好を2つの主要な次元に沿って包含する。
SafeSoraデータセットには、14,711のユニークなプロンプト、4つの異なるLVMによって生成された57,333のユニークなビデオ、人間によってラベル付けされた51,691対の好みアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-06-20T16:38:56Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。