論文の概要: Spotlighting Partially Visible Cinematic Language for Video-to-Audio Generation via Self-distillation
- arxiv url: http://arxiv.org/abs/2507.02271v1
- Date: Thu, 03 Jul 2025 03:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.569791
- Title: Spotlighting Partially Visible Cinematic Language for Video-to-Audio Generation via Self-distillation
- Title(参考訳): 自己蒸留によるビデオ・音声生成のための部分可視的シネマティック言語
- Authors: Feizhen Huang, Yu Wu, Yutian Lin, Bo Du,
- Abstract要約: 本稿では,V2Aモデルを映画言語シナリオに拡張するための自己蒸留手法を提案する。
映像言語の変化をシミュレートすることで、学生モデルは、トレーニングペアのビデオ特徴と、同じ音声と視覚の対応とを一致させることを学ぶ。
提案手法は,全評価指標に対する部分的可視性の向上とともに,大規模V2AデータセットであるVGGSoundの性能向上を実現している。
- 参考スコア(独自算出の注目度): 34.67832016708788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-Audio (V2A) Generation achieves significant progress and plays a crucial role in film and video post-production. However, current methods overlook the cinematic language, a critical component of artistic expression in filmmaking. As a result, their performance deteriorates in scenarios where Foley targets are only partially visible. To address this challenge, we propose a simple self-distillation approach to extend V2A models to cinematic language scenarios. By simulating the cinematic language variations, the student model learns to align the video features of training pairs with the same audio-visual correspondences, enabling it to effectively capture the associations between sounds and partial visual information. Our method not only achieves impressive improvements under partial visibility across all evaluation metrics, but also enhances performance on the large-scale V2A dataset, VGGSound.
- Abstract(参考訳): Video-to-Audio(V2A)ジェネレーションは大きな進歩を遂げ、映画やビデオのポストプロダクションにおいて重要な役割を担っている。
しかし、現在の手法は、映画製作における芸術的表現の重要な構成要素である映画言語を見落としている。
その結果、Foleyターゲットが部分的にしか見えないシナリオではパフォーマンスが低下する。
この課題に対処するために,V2Aモデルを映画言語シナリオに拡張するための簡単な自己蒸留手法を提案する。
映像言語の変化をシミュレートすることで、学生モデルは、トレーニングペアのビデオ特徴と同一の音声-視覚対応を一致させることを学び、音と部分的な視覚情報の関連を効果的に捉えることができる。
提案手法は, 評価指標全体の部分的視認性の向上だけでなく, 大規模V2AデータセットであるVGGSoundの性能向上にも寄与する。
関連論文リスト
- Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup [2.80888070977859]
映像と音声を併用した映像行動認識のための音声・視覚SSLを提案する。
UCF-51, Kinetics-400, VGGSoundデータセットの実験では,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-04T05:13:56Z) - From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。