論文の概要: AutoAD III: The Prequel -- Back to the Pixels
- arxiv url: http://arxiv.org/abs/2404.14412v1
- Date: Mon, 22 Apr 2024 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 12:58:23.848572
- Title: AutoAD III: The Prequel -- Back to the Pixels
- Title(参考訳): AutoAD III:「Prequel」から「Pixels」へ
- Authors: Tengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman,
- Abstract要約: 本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
- 参考スコア(独自算出の注目度): 96.27059234129788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating Audio Description (AD) for movies is a challenging task that requires fine-grained visual understanding and an awareness of the characters and their names. Currently, visual language models for AD generation are limited by a lack of suitable training data, and also their evaluation is hampered by using performance measures not specialized to the AD domain. In this paper, we make three contributions: (i) We propose two approaches for constructing AD datasets with aligned video data, and build training and evaluation datasets using these. These datasets will be publicly released; (ii) We develop a Q-former-based architecture which ingests raw video and generates AD, using frozen pre-trained visual encoders and large language models; and (iii) We provide new evaluation metrics to benchmark AD quality that are well-matched to human performance. Taken together, we improve the state of the art on AD generation.
- Abstract(参考訳): 映画のための音声記述(AD)の生成は、細かい視覚的理解とキャラクターとその名前の認識を必要とする課題である。
現在、AD生成のための視覚言語モデルは、適切なトレーニングデータの欠如によって制限されており、ADドメインに特化していないパフォーマンス指標を使用することで、その評価を妨げている。
本稿では,3つのコントリビューションについて述べる。
(i)映像データを用いたADデータセット構築のための2つの手法と,これを用いたトレーニングと評価データセットの構築を提案する。
これらのデータセットは、公開されます。
(II)凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて生動画を取り込み、ADを生成するQ-former-based architectureを開発する。
(3)人間のパフォーマンスによく適合したAD品質をベンチマークするための新しい評価指標を提供する。
一体となって、AD生成の最先端を改善します。
関連論文リスト
- AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文 参考訳(メタデータ) (2024-07-22T17:59:56Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - Genie: Achieving Human Parity in Content-Grounded Datasets Generation [15.535753443076002]
本稿では,高品質なコンテンツグラウンドデータの自動生成手法であるGenieを提案する。
3つの大規模合成データを生成することで、この手法を実証する。
人間の評価では、生成したデータは自然で高品質であることが判明した。
論文 参考訳(メタデータ) (2024-01-25T18:14:57Z) - AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description [95.70092272297704]
フレーム,キャストリスト,音声の時間的位置のCLIP視覚的特徴を考慮し,映画ADを自動生成する新しいモデルを開発した。
我々は、アプレットとアプレットの比較において、ADテキスト生成の以前のアーキテクチャよりもどのように改善されているかを実証する。
論文 参考訳(メタデータ) (2023-10-10T17:59:53Z) - AutoAD: Movie Description in Context [91.98603496476215]
本稿では,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルを提案する。
我々は、GPTやCLIPといった事前訓練された基礎モデルのパワーを活用し、視覚的に条件付けられたテキスト生成のために2つのモデルをブリッジするマッピングネットワークをトレーニングするのみである。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。