論文の概要: DistinctAD: Distinctive Audio Description Generation in Contexts
- arxiv url: http://arxiv.org/abs/2411.18180v1
- Date: Wed, 27 Nov 2024 09:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:38.510658
- Title: DistinctAD: Distinctive Audio Description Generation in Contexts
- Title(参考訳): DistinctAD: 文脈における識別型オーディオ記述生成
- Authors: Bo Fang, Wenhao Wu, Qiangqiang Wu, Yuxin Song, Antoni B. Chan,
- Abstract要約: 本研究では,より優れた物語を生成するために,特徴性を重視した音声記述を生成するためのフレームワークであるDistinctADを提案する。
ドメインギャップに対処するために、追加のADコーパスを必要としないCLIP-AD適応戦略を導入する。
ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている: (i) コンテクスト予測最大化注意(EMA)モジュールは、連続するビデオクリップから共通のベースを抽出することで冗長性を低減し、 (ii) コンテキスト内の繰り返し単語をフィルタリングする明確な単語予測損失である。
- 参考スコア(独自算出の注目度): 62.58375366359421
- License:
- Abstract: Audio Descriptions (ADs) aim to provide a narration of a movie in text form, describing non-dialogue-related narratives, such as characters, actions, or scene establishment. Automatic generation of ADs remains challenging due to: i) the domain gap between movie-AD data and existing data used to train vision-language models, and ii) the issue of contextual redundancy arising from highly similar neighboring visual clips in a long movie. In this work, we propose DistinctAD, a novel two-stage framework for generating ADs that emphasize distinctiveness to produce better narratives. To address the domain gap, we introduce a CLIP-AD adaptation strategy that does not require additional AD corpora, enabling more effective alignment between movie and AD modalities at both global and fine-grained levels. In Stage-II, DistinctAD incorporates two key innovations: (i) a Contextual Expectation-Maximization Attention (EMA) module that reduces redundancy by extracting common bases from consecutive video clips, and (ii) an explicit distinctive word prediction loss that filters out repeated words in the context, ensuring the prediction of unique terms specific to the current AD. Comprehensive evaluations on MAD-Eval, CMD-AD, and TV-AD benchmarks demonstrate the superiority of DistinctAD, with the model consistently outperforming baselines, particularly in Recall@k/N, highlighting its effectiveness in producing high-quality, distinctive ADs.
- Abstract(参考訳): オーディオ記述(AD)は、映画をテキスト形式でナレーションし、文字、アクション、シーン設定などの非対話的な物語を記述することを目的としている。
ADの自動生成は、次のように困難である。
一 映画ADデータと視覚言語モデルの訓練に用いられる既存のデータとの領域ギャップ
二 長編映画において、近隣の非常に類似した映像クリップから生じる文脈冗長性の問題。
本研究では,より優れた物語を生み出すために,特徴を強調するADを生成するための新しい2段階フレームワークであるDistinctADを提案する。
ドメインギャップに対処するために,さらにADコーパスを必要としないCLIP-AD適応戦略を導入する。
ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている。
(i)連続ビデオクリップから共通基盤を抽出することにより冗長性を低減したコンテキスト期待最大化注意(EMA)モジュール
(II) 文脈内で繰り返し単語をフィルタリングし、現在ADに特有の一意な単語の予測を確実にする明確な単語予測損失。
MAD-Eval、CMD-AD、TV-ADベンチマークに関する総合的な評価は、DistinctADの優位性を証明している。
関連論文リスト
- AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文 参考訳(メタデータ) (2024-07-22T17:59:56Z) - LLM-AD: Large Language Model based Audio Description System [5.319096768490139]
本稿では,GPT-4V(ision)の強力なマルチモーダルおよび命令追従能力を利用する自動AD生成パイプラインを提案する。
確立された自然言語AD生産標準に準拠したADを生成し、フレーム間でコンテキスト的に一貫した文字情報を維持する。
CIDErスコアが20.5であるように,MADデータセットの徹底的な解析により,自動AD生産における学習に基づく手法と同等の性能が得られた。
論文 参考訳(メタデータ) (2024-05-02T03:38:58Z) - AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - Domain-Agnostic Mutual Prompting for Unsupervised Domain Adaptation [27.695825570272874]
従来のUnsupervised Domain Adaptation (UDA)は、ドメイン間の分散の差を最小限にしようと努力している。
ドメイン非依存型Multual Prompting (DAMP) を提案する。
3つのUDAベンチマークの実験は、最先端のアプローチよりもDAMPの方が優れていることを示した。
論文 参考訳(メタデータ) (2024-03-05T12:06:48Z) - AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description [95.70092272297704]
フレーム,キャストリスト,音声の時間的位置のCLIP視覚的特徴を考慮し,映画ADを自動生成する新しいモデルを開発した。
我々は、アプレットとアプレットの比較において、ADテキスト生成の以前のアーキテクチャよりもどのように改善されているかを実証する。
論文 参考訳(メタデータ) (2023-10-10T17:59:53Z) - AutoAD: Movie Description in Context [91.98603496476215]
本稿では,映画を取り込み,ADをテキスト形式で出力する自動音声記述(AD)モデルを提案する。
我々は、GPTやCLIPといった事前訓練された基礎モデルのパワーを活用し、視覚的に条件付けられたテキスト生成のために2つのモデルをブリッジするマッピングネットワークをトレーニングするのみである。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。