論文の概要: Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation
- arxiv url: http://arxiv.org/abs/2504.01020v1
- Date: Tue, 01 Apr 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:42.217508
- Title: Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation
- Title(参考訳): ショットバイショット:フィルムグラマー対応トレーニングフリーオーディオ記述生成
- Authors: Junyu Xie, Tengda Han, Max Bain, Arsha Nagrani, Eshika Khandelwal, Gül Varol, Weidi Xie, Andrew Zisserman,
- Abstract要約: ビデオ理解の基本単位として「ショット」を活用する2段階フレームワークを提案する。
これには、隣接するショットへの時間的コンテキストの拡張や、ショットスケールやスレッド構造などのフィルム文法装置の導入が含まれる。
我々の手法は、オープンソースとプロプライエタリなVisual-Language Modelsの両方と互換性がある。
- 参考スコア(独自算出の注目度): 94.23160400824969
- License:
- Abstract: Our objective is the automatic generation of Audio Descriptions (ADs) for edited video material, such as movies and TV series. To achieve this, we propose a two-stage framework that leverages "shots" as the fundamental units of video understanding. This includes extending temporal context to neighbouring shots and incorporating film grammar devices, such as shot scales and thread structures, to guide AD generation. Our method is compatible with both open-source and proprietary Visual-Language Models (VLMs), integrating expert knowledge from add-on modules without requiring additional training of the VLMs. We achieve state-of-the-art performance among all prior training-free approaches and even surpass fine-tuned methods on several benchmarks. To evaluate the quality of predicted ADs, we introduce a new evaluation measure -- an action score -- specifically targeted to assessing this important aspect of AD. Additionally, we propose a novel evaluation protocol that treats automatic frameworks as AD generation assistants and asks them to generate multiple candidate ADs for selection.
- Abstract(参考訳): 本研究の目的は,映画やテレビシリーズなどの編集映像の音声記述(AD)の自動生成である。
これを実現するために,ビデオ理解の基本単位として「ショット」を活用する2段階フレームワークを提案する。
これには、隣接するショットへの時間的コンテキストの拡張や、AD生成をガイドするために、ショットスケールやスレッド構造などのフィルム文法装置の導入が含まれる。
提案手法は,Visual-Language Models (VLM) と互換性があり,VLMのさらなるトレーニングを必要とせず,アドオンモジュールから専門知識を統合する。
従来のトレーニング不要のアプローチのすべてにおいて最先端のパフォーマンスを実現し、いくつかのベンチマークで微調整された手法を超越している。
予測されたADの質を評価するために,ADのこの重要な側面を評価することを目的とした,アクションスコアという新たな評価尺度を導入する。
さらに,自動フレームワークをAD生成アシスタントとして扱う新しい評価プロトコルを提案する。
関連論文リスト
- Multilevel Semantic-Aware Model for AI-Generated Video Quality Assessment [15.529169236891532]
本稿では,AI生成ビデオ品質評価のためのマルチレベルセマンティック・アウェアモデルであるMSA-VQAを紹介する。
我々の階層的なフレームワークは、ビデオコンテンツを3つのレベル(フレーム、セグメント、ビデオ)で分析します。
ビデオと条件付きプロンプト間のセマンティック一貫性を確保するために,CLIPのテキストエンコーダを用いたPrompt Semantic Supervision Moduleを提案する。
論文 参考訳(メタデータ) (2025-01-06T01:18:11Z) - DistinctAD: Distinctive Audio Description Generation in Contexts [62.58375366359421]
本研究では,より優れた物語を生成するために,特徴性を重視した音声記述を生成するためのフレームワークであるDistinctADを提案する。
ドメインギャップに対処するために、追加のADコーパスを必要としないCLIP-AD適応戦略を導入する。
ステージIIでは、DistinctADは2つの重要なイノベーションを取り入れている: (i) コンテクスト予測最大化注意(EMA)モジュールは、連続するビデオクリップから共通のベースを抽出することで冗長性を低減し、 (ii) コンテキスト内の繰り返し単語をフィルタリングする明確な単語予測損失である。
論文 参考訳(メタデータ) (2024-11-27T09:54:59Z) - CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description [92.72058446133468]
本研究の目的は,映画とテレビシリーズのオーディオ記述(AD)を無訓練で生成することである。
市販のビジュアル言語モデル(VLM)と大規模言語モデル(LLM)のパワーを利用する。
当社のアプローチであるAutoAD-Zeroは、映画とテレビシリーズのAD生成において優れたパフォーマンスを示し、最先端のCRITICスコアを達成しています。
論文 参考訳(メタデータ) (2024-07-22T17:59:56Z) - AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。