論文の概要: AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description
- arxiv url: http://arxiv.org/abs/2310.06838v1
- Date: Tue, 10 Oct 2023 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:17:45.284418
- Title: AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description
- Title(参考訳): AutoAD II: The Sequel -- 誰、いつ、何の映画オーディオ記述
- Authors: Tengda Han, Max Bain, Arsha Nagrani, G\"ul Varol, Weidi Xie, Andrew
Zisserman
- Abstract要約: フレーム,キャストリスト,音声の時間的位置のCLIP視覚的特徴を考慮し,映画ADを自動生成する新しいモデルを開発した。
我々は、アプレットとアプレットの比較において、ADテキスト生成の以前のアーキテクチャよりもどのように改善されているかを実証する。
- 参考スコア(独自算出の注目度): 95.70092272297704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio Description (AD) is the task of generating descriptions of visual
content, at suitable time intervals, for the benefit of visually impaired
audiences. For movies, this presents notable challenges -- AD must occur only
during existing pauses in dialogue, should refer to characters by name, and
ought to aid understanding of the storyline as a whole. To this end, we develop
a new model for automatically generating movie AD, given CLIP visual features
of the frames, the cast list, and the temporal locations of the speech;
addressing all three of the 'who', 'when', and 'what' questions: (i) who -- we
introduce a character bank consisting of the character's name, the actor that
played the part, and a CLIP feature of their face, for the principal cast of
each movie, and demonstrate how this can be used to improve naming in the
generated AD; (ii) when -- we investigate several models for determining
whether an AD should be generated for a time interval or not, based on the
visual content of the interval and its neighbours; and (iii) what -- we
implement a new vision-language model for this task, that can ingest the
proposals from the character bank, whilst conditioning on the visual features
using cross-attention, and demonstrate how this improves over previous
architectures for AD text generation in an apples-to-apples comparison.
- Abstract(参考訳): 音声記述(Audio Description、AD)は、視覚障害者の利益のために、適切な時間間隔で視覚コンテンツの記述を生成するタスクである。
映画の場合、これは注目すべき課題を示します -- 広告は、既存の対話の一時停止の間にのみ発生しなければならず、名前によるキャラクターを参照すべきであり、ストーリー全体の理解を支援するべきです。
そこで本研究では,映像広告を自動的に生成する新しいモデルを開発し,フレームの映像的特徴,キャストリスト,発話の時間的位置を抽出し,who,when,whatの3つの質問をすべて解決する。
i) 各映画の主キャストに対して、キャラクタの名前、役柄、顔のCLIP特徴からなるキャラクタバンクを導入し、生成されたADの命名を改善するためにどのように使用できるかを実証する。
(ii) 間隔とその近傍の視覚内容に基づいて、ある広告を時間間隔で生成すべきか否かを判断するための複数のモデルを調査した場合。
(iii)このタスクのために新しいビジョン言語モデルを実装し、文字バンクから提案を取り込みながら、クロスアテンションを使って視覚的特徴を条件付けし、AppleとApplesの比較においてADテキスト生成の以前のアーキテクチャよりもどのように改善されているかを実証する。
関連論文リスト
- AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文 参考訳(メタデータ) (2024-07-22T17:59:56Z) - AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - AutoAD: Movie Description in Context [91.98603496476215]
本稿では,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルを提案する。
我々は、GPTやCLIPといった事前訓練された基礎モデルのパワーを活用し、視覚的に条件付けられたテキスト生成のために2つのモデルをブリッジするマッピングネットワークをトレーニングするのみである。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。