論文の概要: MCAD: Multimodal Context-Aware Audio Description Generation For Soccer
- arxiv url: http://arxiv.org/abs/2511.09448v1
- Date: Thu, 13 Nov 2025 01:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.575589
- Title: MCAD: Multimodal Context-Aware Audio Description Generation For Soccer
- Title(参考訳): MCAD:サッカーのためのマルチモーダルコンテキスト対応オーディオ記述生成
- Authors: Lipisha Chaudhary, Trisha Mittal, Subhadra Gopalakrishnan, Ifeoma Nwogu, Jaclyn Pytlarz,
- Abstract要約: 我々は,映画以外のAD生成をスポーツ分野に拡張するエンドツーエンドパイプライン MCAD を提案する。
公開映画ADデータセット上でビデオ大言語モデルを微調整し、ADの物語構造と慣習を学習する。
生成したADの品質を正確に評価するための新しい評価指標ARGE-ADを導入する。
- 参考スコア(独自算出の注目度): 8.83668236549788
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio Descriptions (AD) are essential for making visual content accessible to individuals with visual impairments. Recent works have shown a promising step towards automating AD, but they have been limited to describing high-quality movie content using human-annotated ground truth AD in the process. In this work, we present an end-to-end pipeline, MCAD, that extends AD generation beyond movies to the domain of sports, with a focus on soccer games, without relying on ground truth AD. To address the absence of domain-specific AD datasets, we fine-tune a Video Large Language Model on publicly available movie AD datasets so that it learns the narrative structure and conventions of AD. During inference, MCAD incorporates multimodal contextual cues such as player identities, soccer events and actions, and commentary from the game. These cues, combined with input prompts to the fine-tuned VideoLLM, allow the system to produce complete AD text for each video segment. We further introduce a new evaluation metric, ARGE-AD, designed to accurately assess the quality of generated AD. ARGE-AD evaluates the generated AD for the presence of five characteristics: (i) usage of people's names, (ii) mention of actions and events, (iii) appropriate length of AD, (iv) absence of pronouns, and (v) overlap from commentary or subtitles. We present an in-depth analysis of our approach on both movie and soccer datasets. We also validate the use of this metric to quantitatively comment on the quality of generated AD using our metric across domains. Additionally, we contribute audio descriptions for 100 soccer game clips annotated by two AD experts.
- Abstract(参考訳): 聴覚記述(AD)は視覚障害のある個人に対して視覚的コンテンツをアクセスできるようにするために不可欠である。
最近の研究はADの自動化に向けた有望なステップを示しているが、その過程では人間の注釈を付した「AD」を用いて高品質な映画コンテンツを記述することに限られている。
本研究では,映画を超えたAD生成をスポーツの領域に拡張するエンドツーエンドパイプラインであるMCADについて述べる。
ドメイン固有のADデータセットの欠如に対処するため、公開映画ADデータセットにビデオ大言語モデルを微調整し、ADの物語構造と慣習を学習する。
推論の間、MCADはプレイヤーのアイデンティティ、サッカーのイベントやアクション、ゲームからのコメントなどのマルチモーダルな文脈的手がかりを取り入れている。
これらのキューと、微調整されたVideoLLMへの入力プロンプトを組み合わせることで、システムは各ビデオセグメントに対して完全なADテキストを生成することができる。
さらに、生成されたADの品質を正確に評価する新しい評価基準ARGE-ADを導入する。
ARGE-ADは、生成されたADを5つの特性の有無で評価する。
(i)人名の使用
(二)行動・事件の言及
(三)ADの適切な長さ
(四)代名詞の欠如、及び
(v) 注釈又は字幕と重複すること。
本稿では,映画とサッカーの両方のデータセットに対するアプローチを詳細に分析する。
また、このメトリックを使用して、ドメイン間でのメトリックを使用して、生成されたADの品質について定量的にコメントする。
さらに,ADの専門家2人が注釈を付けたサッカーゲームクリップ100本について,音声説明を行った。
関連論文リスト
- What You See is What You Ask: Evaluating Audio Descriptions [27.76958202277314]
数分間のコヒーレントなビデオセグメントでADを評価するQAベンチマークであるADQAを提案する。
現在のAD生成手法は、人間が作成したADよりもはるかに遅れていることを示す。
論文 参考訳(メタデータ) (2025-10-01T12:14:15Z) - DistinctAD: Distinctive Audio Description Generation in Contexts [62.58375366359421]
本研究では,より優れた物語を生成するために,特徴性を重視した音声記述を生成するためのフレームワークであるDistinctADを提案する。
ドメインギャップに対処するために、追加のADコーパスを必要としないCLIP-AD適応戦略を導入する。
ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている: (i) コンテクスト予測最大化注意(EMA)モジュールは、連続するビデオクリップから共通のベースを抽出することで冗長性を低減し、 (ii) コンテキスト内の繰り返し単語をフィルタリングする明確な単語予測損失である。
論文 参考訳(メタデータ) (2024-11-27T09:54:59Z) - AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - AutoAD: Movie Description in Context [91.98603496476215]
本稿では,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルを提案する。
我々は、GPTやCLIPといった事前訓練された基礎モデルのパワーを活用し、視覚的に条件付けられたテキスト生成のために2つのモデルをブリッジするマッピングネットワークをトレーニングするのみである。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。