Fugu-MT 論文翻訳(概要): AutoAD III: The Prequel -- Back to the Pixels

論文の概要: AutoAD III: The Prequel -- Back to the Pixels

arxiv url: http://arxiv.org/abs/2404.14412v1
Date: Mon, 22 Apr 2024 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 12:58:23.848572
Title: AutoAD III: The Prequel -- Back to the Pixels
Title（参考訳）: AutoAD III:「Prequel」から「Pixels」へ
Authors: Tengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman,
Abstract要約: 本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
参考スコア（独自算出の注目度）: 96.27059234129788
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating Audio Description (AD) for movies is a challenging task that requires fine-grained visual understanding and an awareness of the characters and their names. Currently, visual language models for AD generation are limited by a lack of suitable training data, and also their evaluation is hampered by using performance measures not specialized to the AD domain. In this paper, we make three contributions: (i) We propose two approaches for constructing AD datasets with aligned video data, and build training and evaluation datasets using these. These datasets will be publicly released; (ii) We develop a Q-former-based architecture which ingests raw video and generates AD, using frozen pre-trained visual encoders and large language models; and (iii) We provide new evaluation metrics to benchmark AD quality that are well-matched to human performance. Taken together, we improve the state of the art on AD generation.
Abstract（参考訳）: 映画のための音声記述(AD)の生成は、細かい視覚的理解とキャラクターとその名前の認識を必要とする課題である。現在、AD生成のための視覚言語モデルは、適切なトレーニングデータの欠如によって制限されており、ADドメインに特化していないパフォーマンス指標を使用することで、その評価を妨げている。本稿では,3つのコントリビューションについて述べる。 (i)映像データを用いたADデータセット構築のための2つの手法と,これを用いたトレーニングと評価データセットの構築を提案する。これらのデータセットは、公開されます。 (II)凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて生動画を取り込み、ADを生成するQ-former-based architectureを開発する。 (3)人間のパフォーマンスによく適合したAD品質をベンチマークするための新しい評価指標を提供する。一体となって、AD生成の最先端を改善します。

関連論文リスト

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation [94.23160400824969]
ビデオ理解の基本単位として「ショット」を活用する2段階フレームワークを提案する。これには、隣接するショットへの時間的コンテキストの拡張や、ショットスケールやスレッド構造などのフィルム文法装置の導入が含まれる。我々の手法は、オープンソースとプロプライエタリなVisual-Language Modelsの両方と互換性がある。
論文参考訳（メタデータ） (2025-04-01T17:59:57Z)
NowYouSee Me: Context-Aware Automatic Audio Description [19.232338111340148]
我々は、コンテキスト認識自動音声記述システムのパイオニアである$mathrmCA3D$を紹介した。提案された$mathrmCA3D$は、ビジュアルキューのみを使用する最初のエンドツーエンドのトレーニングシステムである。
論文参考訳（メタデータ） (2024-12-13T09:40:37Z)
DistinctAD: Distinctive Audio Description Generation in Contexts [62.58375366359421]
本研究では,より優れた物語を生成するために,特徴性を重視した音声記述を生成するためのフレームワークであるDistinctADを提案する。ドメインギャップに対処するために、追加のADコーパスを必要としないCLIP-AD適応戦略を導入する。ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている: (i) コンテクスト予測最大化注意(EMA)モジュールは、連続するビデオクリップから共通のベースを抽出することで冗長性を低減し、 (ii) コンテキスト内の繰り返し単語をフィルタリングする明確な単語予測損失である。
論文参考訳（メタデータ） (2024-11-27T09:54:59Z)
AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文参考訳（メタデータ） (2024-07-22T17:59:56Z)
Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文参考訳（メタデータ） (2024-03-19T17:27:55Z)
Video Annotator: A framework for efficiently building video classifiers using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。 VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。 VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文参考訳（メタデータ） (2024-02-09T17:19:05Z)
Genie: Achieving Human Parity in Content-Grounded Datasets Generation [15.535753443076002]
本稿では,高品質なコンテンツグラウンドデータの自動生成手法であるGenieを提案する。 3つの大規模合成データを生成することで、この手法を実証する。人間の評価では、生成したデータは自然で高品質であることが判明した。
論文参考訳（メタデータ） (2024-01-25T18:14:57Z)
AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description [95.70092272297704]
フレーム,キャストリスト,音声の時間的位置のCLIP視覚的特徴を考慮し,映画ADを自動生成する新しいモデルを開発した。我々は、アプレットとアプレットの比較において、ADテキスト生成の以前のアーキテクチャよりもどのように改善されているかを実証する。
論文参考訳（メタデータ） (2023-10-10T17:59:53Z)
AutoAD: Movie Description in Context [91.98603496476215]
本稿では,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルを提案する。我々は、GPTやCLIPといった事前訓練された基礎モデルのパワーを活用し、視覚的に条件付けられたテキスト生成のために2つのモデルをブリッジするマッピングネットワークをトレーニングするのみである。
論文参考訳（メタデータ） (2023-03-29T17:59:58Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。