論文の概要: LTX-2: Efficient Joint Audio-Visual Foundation Model
- arxiv url: http://arxiv.org/abs/2601.03233v1
- Date: Tue, 06 Jan 2026 18:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.056685
- Title: LTX-2: Efficient Joint Audio-Visual Foundation Model
- Title(参考訳): LTX-2:高能率共同視覚基礎モデル
- Authors: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman,
- Abstract要約: LTX-2は、時間的に同期されたオーディオヴィジュアルコンテンツを生成できるオープンソースモデルである。
より広範な理解のために多言語テキストエンコーダを用いる。
LTX-2は、各シーンのキャラクター、環境、スタイル、感情に従うリッチでコヒーレントなオーディオトラックを生成する。
- 参考スコア(独自算出の注目度): 3.1804093402153506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.
- Abstract(参考訳): 最近のテキストとビデオの拡散モデルは、魅力的なビデオシーケンスを生成することができるが、音声が提供する意味的、感情的、そして大気的な手がかりを欠いている。
本稿では,高品質で時間的に同期したオーディオヴィジュアルコンテンツを統一的に生成できるオープンソース基盤モデルLTX-2を紹介する。
LTX-2は、14Bパラメータの動画ストリームと5Bパラメータのオーディオストリームを備えた非対称なデュアルストリームトランスフォーマーで構成され、双方向のオーディオ・ビデオ・クロスアテンション・レイヤと時間的位置埋め込みと、タイムステップの共有のための相互モダリティAdaLNを結合する。
このアーキテクチャは、オーディオ生成よりもビデオ生成のキャパシティを確保しつつ、統合されたオーディオヴィジュアルモデルの効率的なトレーニングと推論を可能にする。
我々は,多言語テキストエンコーダを用いて,音声のアライメントと制御性を改善するためのモダリティ認識型分類器フリーガイダンス(modality-CFG)機構を導入する。
LTX-2は音声を生成するだけでなく、各シーンのキャラクター、環境、スタイル、感情に従うリッチでコヒーレントなオーディオトラックを生成する。
評価において,本モデルは,オープンソースのシステム間での最新のオーディオ視覚品質と迅速な付着を実現するとともに,計算コストと推論時間のごく一部で,プロプライエタリなモデルに匹敵する結果を提供する。
すべてのモデルウェイトとコードは公開されています。
関連論文リスト
- SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。
我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文 参考訳(メタデータ) (2024-12-19T18:57:21Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion [27.47320496383661]
本稿では,時間的ダイナミクスを制御するために音声信号を利用する新しいT2Vフレームワークを提案する。
音声による局所的な編集と信号の平滑化を提案し,ビデオ合成におけるデシラタの相反する2つのデシラタのバランスを良くする。
論文 参考訳(メタデータ) (2023-05-06T10:26:56Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。