論文の概要: What You See is What You Ask: Evaluating Audio Descriptions
- arxiv url: http://arxiv.org/abs/2510.00808v1
- Date: Wed, 01 Oct 2025 12:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.546028
- Title: What You See is What You Ask: Evaluating Audio Descriptions
- Title(参考訳): 聴くと質問するもの:音声による説明を評価する
- Authors: Divy Kala, Eshika Khandelwal, Makarand Tapaswi,
- Abstract要約: 数分間のコヒーレントなビデオセグメントでADを評価するQAベンチマークであるADQAを提案する。
現在のAD生成手法は、人間が作成したADよりもはるかに遅れていることを示す。
- 参考スコア(独自算出の注目度): 27.76958202277314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio descriptions (ADs) narrate important visual details in movies, enabling Blind and Low Vision (BLV) users to understand narratives and appreciate visual details. Existing works in automatic AD generation mostly focus on few-second trimmed clips, and evaluate them by comparing against a single ground-truth reference AD. However, writing ADs is inherently subjective. Through alignment and analysis of two independent AD tracks for the same movies, we quantify the subjectivity in when and whether to describe, and what and how to highlight. Thus, we show that working with trimmed clips is inadequate. We propose ADQA, a QA benchmark that evaluates ADs at the level of few-minute long, coherent video segments, testing whether they would help BLV users understand the story and appreciate visual details. ADQA features visual appreciation (VA) questions about visual facts and narrative understanding (NU) questions based on the plot. Through ADQA, we show that current AD generation methods lag far behind human-authored ADs. We conclude with several recommendations for future work and introduce a public leaderboard for benchmarking.
- Abstract(参考訳): オーディオ記述(AD)は映画の重要な視覚的詳細を語り、Blind and Low Vision(BLV)ユーザーは物語を理解し、視覚的詳細を理解することができる。
自動AD生成における既存の作業は、主に数秒のトリミングクリップに焦点を合わせ、単一の接地トラス基準ADと比較して評価する。
しかし、ADは本質的に主観的である。
同じ映画のための2つの独立したADトラックのアライメントと分析を通じて、主観性をいつ、いつ、どのように、どのようにハイライトするかで定量化する。
このように、トリミングされたクリップでの作業は不十分であることを示す。
本稿では,ADを数分間の連続したビデオセグメントで評価するQAベンチマークADQAを提案し,BLVユーザがそのストーリーを理解し,視覚的詳細を理解するのに役立つかどうかを検証した。
ADQAは、プロットに基づいた視覚的事実と物語理解(NU)に関する視覚的評価(VA)の質問を特徴としている。
ADQAを通じて、現在のAD生成法は、人間が作成したADよりもはるかに遅れていることを示す。
今後の作業に関するいくつかの推奨事項を締めくくり、ベンチマークのための公開リーダボードを導入します。
関連論文リスト
- Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation [110.79299467093006]
ビデオ理解の基本単位として「ショット」を活用する2段階フレームワークを提案する。
これには、隣接するショットへの時間的コンテキストの拡張や、ショットスケールやスレッド構造などのフィルム文法装置の導入が含まれる。
我々の手法は、オープンソースとプロプライエタリなVisual-Language Modelsの両方と互換性がある。
論文 参考訳(メタデータ) (2025-04-01T17:59:57Z) - DistinctAD: Distinctive Audio Description Generation in Contexts [62.58375366359421]
本研究では,より優れた物語を生成するために,特徴性を重視した音声記述を生成するためのフレームワークであるDistinctADを提案する。
ドメインギャップに対処するために、追加のADコーパスを必要としないCLIP-AD適応戦略を導入する。
ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている: (i) コンテクスト予測最大化注意(EMA)モジュールは、連続するビデオクリップから共通のベースを抽出することで冗長性を低減し、 (ii) コンテキスト内の繰り返し単語をフィルタリングする明確な単語予測損失である。
論文 参考訳(メタデータ) (2024-11-27T09:54:59Z) - AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - AutoAD: Movie Description in Context [91.98603496476215]
本稿では,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルを提案する。
我々は、GPTやCLIPといった事前訓練された基礎モデルのパワーを活用し、視覚的に条件付けられたテキスト生成のために2つのモデルをブリッジするマッピングネットワークをトレーニングするのみである。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。