論文の概要: FocusedAD: Character-centric Movie Audio Description
- arxiv url: http://arxiv.org/abs/2504.12157v1
- Date: Wed, 16 Apr 2025 15:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:21.454849
- Title: FocusedAD: Character-centric Movie Audio Description
- Title(参考訳): FocusedAD: キャラクター中心の映画オーディオ記述
- Authors: Xiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu,
- Abstract要約: Movie Audio Description (AD)は、対話のないセグメントで視覚コンテンツを語り、特に視覚障害者(BVI)の聴衆に利益をもたらすことを目的としている。
キャラクタ中心の映画音声記述を提供する新しいフレームワークであるFocusedADを提案する。
- 参考スコア(独自算出の注目度): 20.257919582999133
- License:
- Abstract: Movie Audio Description (AD) aims to narrate visual content during dialogue-free segments, particularly benefiting blind and visually impaired (BVI) audiences. Compared with general video captioning, AD demands plot-relevant narration with explicit character name references, posing unique challenges in movie understanding.To identify active main characters and focus on storyline-relevant regions, we propose FocusedAD, a novel framework that delivers character-centric movie audio descriptions. It includes: (i) a Character Perception Module(CPM) for tracking character regions and linking them to names; (ii) a Dynamic Prior Module(DPM) that injects contextual cues from prior ADs and subtitles via learnable soft prompts; and (iii) a Focused Caption Module(FCM) that generates narrations enriched with plot-relevant details and named characters. To overcome limitations in character identification, we also introduce an automated pipeline for building character query banks. FocusedAD achieves state-of-the-art performance on multiple benchmarks, including strong zero-shot results on MAD-eval-Named and our newly proposed Cinepile-AD dataset. Code and data will be released at https://github.com/Thorin215/FocusedAD .
- Abstract(参考訳): Movie Audio Description (AD)は、対話のないセグメントで視覚コンテンツを語り、特に視覚障害者(BVI)の聴衆に利益をもたらすことを目的としている。
一般的なビデオキャプションと比較すると,ADは明確な文字名参照によるプロット関連ナレーションを要求し,映画理解においてユニークな課題を呈し,アクティブな主人公を特定し,ストーリーライン関連領域に焦点を合わせるために,キャラクター中心の映像音声記述を提供する新しいフレームワークであるFocusedADを提案する。
以下を含む。
(i)文字領域を追跡して名前にリンクするための文字知覚モジュール(CPM)
(ii) 学習可能なソフトプロンプトを介して先行AD及びサブタイトルから文脈キューを注入する動的事前モジュール(DPM)
(iii)プロット関連の詳細と名前付き文字に富んだナレーションを生成するFocused Caption Module(FCM)。
文字識別の限界を克服するために、文字クエリバンクを構築するための自動パイプラインも導入する。
FocusedADは、MAD-eval-Namedの強いゼロショット結果や、新たに提案したCinepile-ADデータセットなど、複数のベンチマークで最先端のパフォーマンスを実現する。
コードとデータはhttps://github.com/Thorin215/FocusedADで公開される。
関連論文リスト
- DistinctAD: Distinctive Audio Description Generation in Contexts [62.58375366359421]
本研究では,より優れた物語を生成するために,特徴性を重視した音声記述を生成するためのフレームワークであるDistinctADを提案する。
ドメインギャップに対処するために、追加のADコーパスを必要としないCLIP-AD適応戦略を導入する。
ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている: (i) コンテクスト予測最大化注意(EMA)モジュールは、連続するビデオクリップから共通のベースを抽出することで冗長性を低減し、 (ii) コンテキスト内の繰り返し単語をフィルタリングする明確な単語予測損失である。
論文 参考訳(メタデータ) (2024-11-27T09:54:59Z) - AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文 参考訳(メタデータ) (2024-07-22T17:59:56Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description [95.70092272297704]
フレーム,キャストリスト,音声の時間的位置のCLIP視覚的特徴を考慮し,映画ADを自動生成する新しいモデルを開発した。
我々は、アプレットとアプレットの比較において、ADテキスト生成の以前のアーキテクチャよりもどのように改善されているかを実証する。
論文 参考訳(メタデータ) (2023-10-10T17:59:53Z) - AutoAD: Movie Description in Context [91.98603496476215]
本稿では,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルを提案する。
我々は、GPTやCLIPといった事前訓練された基礎モデルのパワーを活用し、視覚的に条件付けられたテキスト生成のために2つのモデルをブリッジするマッピングネットワークをトレーニングするのみである。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。