論文の概要: AutoAD: Movie Description in Context
- arxiv url: http://arxiv.org/abs/2303.16899v1
- Date: Wed, 29 Mar 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 13:37:27.821764
- Title: AutoAD: Movie Description in Context
- Title(参考訳): AutoAD: コンテキストでの映画記述
- Authors: Tengda Han, Max Bain, Arsha Nagrani, G\"ul Varol, Weidi Xie, Andrew
Zisserman
- Abstract要約: 本稿では,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルを提案する。
我々は、GPTやCLIPといった事前訓練された基礎モデルのパワーを活用し、視覚的に条件付けられたテキスト生成のために2つのモデルをブリッジするマッピングネットワークをトレーニングするのみである。
- 参考スコア(独自算出の注目度): 91.98603496476215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is an automatic Audio Description (AD) model that
ingests movies and outputs AD in text form. Generating high-quality movie AD is
challenging due to the dependency of the descriptions on context, and the
limited amount of training data available. In this work, we leverage the power
of pretrained foundation models, such as GPT and CLIP, and only train a mapping
network that bridges the two models for visually-conditioned text generation.
In order to obtain high-quality AD, we make the following four contributions:
(i) we incorporate context from the movie clip, AD from previous clips, as well
as the subtitles; (ii) we address the lack of training data by pretraining on
large-scale datasets, where visual or contextual information is unavailable,
e.g. text-only AD without movies or visual captioning datasets without context;
(iii) we improve on the currently available AD datasets, by removing label
noise in the MAD dataset, and adding character naming information; and (iv) we
obtain strong results on the movie AD task compared with previous methods.
- Abstract(参考訳): 本論文の目的は,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルである。
高品質映画ADの生成は、コンテキスト記述の依存性と利用可能なトレーニングデータの限られた量により困難である。
本研究は,GPTやCLIPなどの事前訓練された基礎モデルのパワーを活用し,2つのモデルを視覚条件付きテキスト生成のためにブリッジするマッピングネットワークのみを訓練する。
高品質ADを得るためには、以下の4つの貢献を行う。
(i)映画クリップからのコンテクスト、前回のクリップからの広告、副タイトルを組み込んでいます。
(ii)映画のないテキストのみの広告や、文脈のないビジュアルキャプションデータセットなど、視覚情報や文脈情報が利用できない大規模データセットを事前トレーニングすることにより、トレーニングデータの欠如に対処する。
(iii)現在利用可能なADデータセットを改善し、MADデータセットのラベルノイズを除去し、文字名情報を追加する。
(iv)従来の手法と比較して,映画広告の課題に対して強い結果が得られる。
関連論文リスト
- AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文 参考訳(メタデータ) (2024-07-22T17:59:56Z) - AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description [95.70092272297704]
フレーム,キャストリスト,音声の時間的位置のCLIP視覚的特徴を考慮し,映画ADを自動生成する新しいモデルを開発した。
我々は、アプレットとアプレットの比較において、ADテキスト生成の以前のアーキテクチャよりもどのように改善されているかを実証する。
論文 参考訳(メタデータ) (2023-10-10T17:59:53Z) - "Let's not Quote out of Context": Unified Vision-Language Pretraining
for Context Assisted Image Captioning [40.01197694624958]
我々は,One For All(OFA)モデルに基づく新しい統合ビジョンランゲージ(VL)モデルを提案する。
我々のアプローチは、既存のアプローチの文脈に依存しない(画像とテキストは独立して扱われる)性質を克服することを目的としています。
本システムは,ベンチマークニュース画像キャプションデータセットにおいて,最大8.34CIDErのスコアを向上し,最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-06-01T17:34:25Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。