論文の概要: AVControl: Efficient Framework for Training Audio-Visual Controls
- arxiv url: http://arxiv.org/abs/2603.24793v1
- Date: Wed, 25 Mar 2026 20:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.980728
- Title: AVControl: Efficient Framework for Training Audio-Visual Controls
- Title(参考訳): AVControl: オーディオ・ビジュアル制御を効果的に訓練するためのフレームワーク
- Authors: Matan Ben-Yosef, Tavi Halperin, Naomi Ken Korem, Mohammad Salama, Harel Cain, Asaf Joseph, Anthony Chen, Urska Jelercic, Ofir Bibi,
- Abstract要約: AVControlは、LTX-2上に構築され、ビデオとオーディオを制御する軽量で拡張可能なフレームワークである。
それは、奥行き、ポーズ、エッジ、内在性のあるカメラ軌道、スパースモーションコントロール、ビデオ編集、そして私たちの知る限り、関節生成モデルのための最初のモジュール型オーディオ視覚制御など、独立に訓練された様々なモダリティをサポートします。
それぞれのモダリティは小さなデータセットしか必要とせず、数百から数千のトレーニングステップに収束し、モノリシックな代替手段の予算のごく一部を占める。
- 参考スコア(独自算出の注目度): 4.840804297125223
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Controlling video and audio generation requires diverse modalities, from depth and pose to camera trajectories and audio transformations, yet existing approaches either train a single monolithic model for a fixed set of controls or introduce costly architectural changes for each new modality. We introduce AVControl, a lightweight, extendable framework built on LTX-2, a joint audio-visual foundation model, where each control modality is trained as a separate LoRA on a parallel canvas that provides the reference signal as additional tokens in the attention layers, requiring no architectural changes beyond the LoRA adapters themselves. We show that simply extending image-based in-context methods to video fails for structural control, and that our parallel canvas approach resolves this. On the VACE Benchmark, we outperform all evaluated baselines on depth- and pose-guided generation, inpainting, and outpainting, and show competitive results on camera control and audio-visual benchmarks. Our framework supports a diverse set of independently trained modalities: spatially-aligned controls such as depth, pose, and edges, camera trajectory with intrinsics, sparse motion control, video editing, and, to our knowledge, the first modular audio-visual controls for a joint generation model. Our method is both compute- and data-efficient: each modality requires only a small dataset and converges within a few hundred to a few thousand training steps, a fraction of the budget of monolithic alternatives. We publicly release our code and trained LoRA checkpoints.
- Abstract(参考訳): ビデオとオーディオ生成を制御するには、深さやポーズ、カメラの軌跡やオーディオ変換といった様々なモダリティが必要ですが、既存のアプローチでは、固定されたコントロールセットに対して単一のモノリシックモデルをトレーニングするか、新しいモダリティごとにコストがかかるアーキテクチャ変更を導入するかのどちらかがあります。
AVControlはLTX-2をベースとした軽量で拡張可能なフレームワークで,各制御モードを並列キャンバス上で個別のLoRAとしてトレーニングし,アテンション層に付加するトークンとして参照信号を提供する。
画像ベースのインコンテキストメソッドをビデオに単純に拡張することは構造制御に失敗し、並列キャンバスアプローチがこれを解決していることを示す。
VACEベンチマークでは, 奥行きとポーズ誘導による生成, 塗り絵, 塗り絵で評価されたベースラインを全て上回り, カメラ制御とオーディオ視覚ベンチマークで競合する結果を示した。
我々のフレームワークは、深度、ポーズ、エッジなどの空間的に整列した制御、内在性のあるカメラ軌道、スパースモーションコントロール、ビデオ編集、そして我々の知識により、関節生成モデルのための最初のモジュール型オーディオ視覚制御など、様々な独立して訓練されたモダリティをサポートします。
それぞれのモダリティは小さなデータセットしか必要とせず、数百から数千のトレーニングステップに収束し、モノリシックな代替手段の予算のごく一部を占める。
コードを公開し、LoRAチェックポイントをトレーニングしています。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - I2VControl: Disentangled and Unified Video Motion Synthesis Control [11.83645633418189]
論理的矛盾を克服するために,不整合で統一されたフレームワーク,すなわちI2VControlを提案する。
私たちは、カメラコントロール、オブジェクトドラッグ、モーションブラシを再考し、すべてのタスクを一貫した表現に再構成します。
我々は広範囲な実験を行い、様々な制御タスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-11-26T04:21:22Z) - ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.62289489036722]
制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文 参考訳(メタデータ) (2024-08-12T11:41:18Z) - Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文 参考訳(メタデータ) (2024-04-15T17:45:36Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。