論文の概要: FoleyGRAM: Video-to-Audio Generation with GRAM-Aligned Multimodal Encoders
- arxiv url: http://arxiv.org/abs/2510.05829v1
- Date: Tue, 07 Oct 2025 11:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.233768
- Title: FoleyGRAM: Video-to-Audio Generation with GRAM-Aligned Multimodal Encoders
- Title(参考訳): FoleyGRAM:GRAM対応マルチモーダルエンコーダを用いたビデオ・ツー・オーディオ生成
- Authors: Riccardo Fosco Gramaccioni, Christian Marinoni, Eleonora Grassucci, Giordano Cicchetti, Aurelio Uncini, Danilo Comminiello,
- Abstract要約: FoleyGRAMは、アライメントエンコーダを用いてセマンティックコンディショニングを強調するビデオ音声生成の新しいアプローチである。
実験により,GRAMを用いたマルチモーダルエンコーダのアライメントにより,生成した音声を映像コンテンツとセマンティックにアライメントする能力が向上することが実証された。
- 参考スコア(独自算出の注目度): 17.209884983402926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present FoleyGRAM, a novel approach to video-to-audio generation that emphasizes semantic conditioning through the use of aligned multimodal encoders. Building on prior advancements in video-to-audio generation, FoleyGRAM leverages the Gramian Representation Alignment Measure (GRAM) to align embeddings across video, text, and audio modalities, enabling precise semantic control over the audio generation process. The core of FoleyGRAM is a diffusion-based audio synthesis model conditioned on GRAM-aligned embeddings and waveform envelopes, ensuring both semantic richness and temporal alignment with the corresponding input video. We evaluate FoleyGRAM on the Greatest Hits dataset, a standard benchmark for video-to-audio models. Our experiments demonstrate that aligning multimodal encoders using GRAM enhances the system's ability to semantically align generated audio with video content, advancing the state of the art in video-to-audio synthesis.
- Abstract(参考訳): 本稿では,マルチモーダルエンコーダを用いたセマンティックコンディショニングを重視した,ビデオ音声生成の新しいアプローチであるFoleyGRAMを提案する。
FoleyGRAMは、ビデオ・オーディオ生成の先行進歩に基づいて、Gramian Representation Alignment Measure (GRAM)を活用して、ビデオ、テキスト、オーディオモダリティ間の埋め込みを整列させ、オーディオ生成プロセスの正確なセマンティック制御を可能にする。
FoleyGRAMの中核は、GRAMの埋め込みと波形エンベロープを条件とした拡散型音声合成モデルであり、対応する入力ビデオとのセマンティック・リッチネスと時間的アライメントの両方を保証する。
我々は,映像音声モデルの標準ベンチマークであるGreatest Hitsデータセット上でFoleyGRAMを評価した。
実験により,GRAMを用いたマルチモーダルエンコーダのアライメントにより,生成した音声を映像コンテンツとセマンティックにアライメントする能力が向上し,映像合成の最先端化が図られた。
関連論文リスト
- AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。