Baton: Explicit Semantic Blueprints for Joint Video-Audio Generation
Abstractの概要
Batonは、拡散ベースの合成前に明示的な意味的計画段階を追加する、動画像および音声の統合生成フレームワークである。本手法は、デュアル意味補正タワー(dual semantic alignment towers)を備えたマルチモーダル言語モデル上に構築されたVA-Plannerを使用し、キーフレームレベルの青写真として機能する、意味的に整合した動画・音声の計画トークンを生成する。時空間のグリッドの不一致があるにもかかわらず、Relative Semantic RoPEメカニズムが意味トークンと拡散潜在変数を位置合わせする一方で、これらの計画トークンはデュアルブランチ拡散トランスフォーマーに注入される。ベンチマークテストやアブレーション研究を通じて、この明示的な計画が、特に複数ステップの意味的推論を必要とするプロンプトにおいて、安定性、プロンプト追従性、およびモダリティ間の同期を向上させると論文は主張している。
新規性
本論文は、意味的計画と合成プロセスを明示的に分離した初の動画・音声統合生成フレームワークとしてBatonを提示している。その特徴的な要素は、各モダリティを認識しつつ相互に整合した計画トークンを生成するVA-Plannerと、その意味的計画を異種の動画および音声の拡散潜在変数と整合させるためのRelative Semantic RoPEである。
成果
Verse-Benchにおいて、Batonは単純なプロンプトでは強力なオープンソースのベースラインと同等の性能を達成すると報告されている一方、より複雑なSem100ベンチマークでは明確な向上が見られる。特に、Sem100においてLTX-2と比較し、プロンプト正確性で32%、複数話者の単語誤り率で76%、非同期率(DeSync)で30%の改善が報告されており、定性的結果やユーザー調査でも、複雑なシーンにおいてより安定し同期された出力が示されている。
論文の注目点
- Batonは、ノイズ除去の前に整合性のある動画および音声トークンを計画することにより、動画・音声統合生成のための明示的な意味的ブループリント(青写真)を導入する。
- 本手法は、デュアル意味補正タワーを持つマルチモーダルVA-PlannerとRelative Semantic RoPEを組み合わせ、計画された意味情報を拡散生成プロセスに接続する。
- 実証実験の結果、このアプローチは一連のアクション、人間と物体の相互作用、および複数話者の対話を含むような、意味的に複雑なプロンプトに対して特に有益であることが示唆されている。