論文の概要: FoleyBench: A Benchmark For Video-to-Audio Models
- arxiv url: http://arxiv.org/abs/2511.13219v1
- Date: Mon, 17 Nov 2025 10:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.127944
- Title: FoleyBench: A Benchmark For Video-to-Audio Models
- Title(参考訳): FoleyBench:ビデオ/オーディオモデルのベンチマーク
- Authors: Satvik Dixit, Koichi Saito, Zhi Zhong, Yuki Mitsufuji, Chris Donahue,
- Abstract要約: ビデオオーディオ生成(V2A)は、映画ポストプロダクション、AR/VR、サウンドデザインなどの領域において重要性が増している。
FoleyBenchは、FoleyスタイルのV2A評価のために明示的に設計された最初の大規模ベンチマークである。
- 参考スコア(独自算出の注目度): 32.98640185887893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-to-audio generation (V2A) is of increasing importance in domains such as film post-production, AR/VR, and sound design, particularly for the creation of Foley sound effects synchronized with on-screen actions. Foley requires generating audio that is both semantically aligned with visible events and temporally aligned with their timing. Yet, there is a mismatch between evaluation and downstream applications due to the absence of a benchmark tailored to Foley-style scenarios. We find that 74% of videos from past evaluation datasets have poor audio-visual correspondence. Moreover, they are dominated by speech and music, domains that lie outside the use case for Foley. To address this gap, we introduce FoleyBench, the first large-scale benchmark explicitly designed for Foley-style V2A evaluation. FoleyBench contains 5,000 (video, ground-truth audio, text caption) triplets, each featuring visible sound sources with audio causally tied to on-screen events. The dataset is built using an automated, scalable pipeline applied to in-the-wild internet videos from YouTube-based and Vimeo-based sources. Compared to past datasets, we show that videos from FoleyBench have stronger coverage of sound categories from a taxonomy specifically designed for Foley sound. Each clip is further labeled with metadata capturing source complexity, UCS/AudioSet category, and video length, enabling fine-grained analysis of model performance and failure modes. We benchmark several state-of-the-art V2A models, evaluating them on audio quality, audio-video alignment, temporal synchronization, and audio-text consistency. Samples are available at: https://gclef-cmu.org/foleybench
- Abstract(参考訳): 映像音声生成(V2A)は、映画ポストプロダクション、AR/VR、サウンドデザインなどの領域において、特にスクリーン上のアクションと同期したフォーリーサウンドエフェクトの作成において重要性が増している。
Foley氏は、目に見えるイベントにセマンティックに整合し、タイミングに時間的に整合したオーディオを生成する必要がある。
しかし、Foleyスタイルのシナリオに合わせたベンチマークがないため、評価と下流のアプリケーションの間にはミスマッチがある。
過去の評価データセットから得られたビデオの74%は、音声と視覚の対応が不十分であることがわかった。
さらに、それらはフォーリーのユースケースの外にある、スピーチと音楽に支配されている。
このギャップに対処するために、我々はFoley-style V2A評価のために明示的に設計された最初の大規模ベンチマークであるFoleyBenchを紹介する。
FoleyBenchには5000(ビデオ、地味なオーディオ、テキストキャプション)の3つセットがあり、それぞれが可視的な音源とスクリーン上のイベントに関連付けられている。
このデータセットは、YouTubeやVimeoのソースから、Wildのインターネットビデオに適用される、自動化されたスケーラブルなパイプラインを使って構築されている。
過去のデータセットと比較すると、FoleyBenchの動画は、Foleyの音に特化して設計された分類学から、より強力な音のカテゴリーをカバーしていることが分かる。
それぞれのクリップには、ソースの複雑さ、UCS/AudioSetカテゴリ、ビデオの長さをキャプチャするメタデータがラベル付けされており、モデルパフォーマンスと障害モードのきめ細かい分析を可能にする。
我々は、最先端のV2Aモデルをいくつかベンチマークし、オーディオ品質、オーディオ・ビデオアライメント、時間同期、音声・テキストの整合性を評価した。
サンプルは、https://gclef-cmu.org/foleybench.comで入手できる。
関連論文リスト
- AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment [11.796771978828403]
ビデオから時間的コヒーレントかつ意味論的に制御可能な音響効果を生成する2段階生成フレームワークであるFolAIを紹介する。
その結果、我々のモデルは、時間的に視覚運動に整合し、意味的にユーザ意図と整合し、知覚的にリアルな音声を確実に生成することがわかった。
これらの知見は、FolAIがプロと対話的な環境でスケーラブルで高品質なフォーリー音声合成のための、制御可能でモジュラーなソリューションとしての可能性を強調している。
論文 参考訳(メタデータ) (2024-12-19T16:37:19Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [19.694770666874827]
音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文 参考訳(メタデータ) (2024-07-01T17:35:56Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。
我々は、オーディオのみの手法とオーディオ視覚的手法の両方において、データセット上で最先端の音声認識および検出モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。