論文の概要: MoFu: Scale-Aware Modulation and Fourier Fusion for Multi-Subject Video Generation
- arxiv url: http://arxiv.org/abs/2512.22310v1
- Date: Fri, 26 Dec 2025 09:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.986645
- Title: MoFu: Scale-Aware Modulation and Fourier Fusion for Multi-Subject Video Generation
- Title(参考訳): MoFu:マルチオブジェクトビデオ生成のためのスケールアウェア変調とフーリエ融合
- Authors: Run Ling, Ke Cao, Jian Lu, Ao Ma, Haowei Liu, Runze He, Changwei Wang, Rongtao Xu, Yihua Shao, Zhanjie Zhang, Peng Wu, Guibing Guo, Wei Feng, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Xingwei Wang,
- Abstract要約: MoFuは、スケールの不整合と置換感度に取り組む統一されたフレームワークである。
MoFuは、自然スケール、主観的忠実度、全体的な視覚的品質の保存において、既存の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 48.45457225939052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-subject video generation aims to synthesize videos from textual prompts and multiple reference images, ensuring that each subject preserves natural scale and visual fidelity. However, current methods face two challenges: scale inconsistency, where variations in subject size lead to unnatural generation, and permutation sensitivity, where the order of reference inputs causes subject distortion. In this paper, we propose MoFu, a unified framework that tackles both challenges. For scale inconsistency, we introduce Scale-Aware Modulation (SMO), an LLM-guided module that extracts implicit scale cues from the prompt and modulates features to ensure consistent subject sizes. To address permutation sensitivity, we present a simple yet effective Fourier Fusion strategy that processes the frequency information of reference features via the Fast Fourier Transform to produce a unified representation. Besides, we design a Scale-Permutation Stability Loss to jointly encourage scale-consistent and permutation-invariant generation. To further evaluate these challenges, we establish a dedicated benchmark with controlled variations in subject scale and reference permutation. Extensive experiments demonstrate that MoFu significantly outperforms existing methods in preserving natural scale, subject fidelity, and overall visual quality.
- Abstract(参考訳): マルチオブジェクトビデオ生成は、テキストプロンプトと複数の参照画像からビデオを合成することを目的としており、各被験者が自然のスケールと視覚的忠実さを保つことを保証する。
しかし、現在の手法では、被写体サイズの変化が不自然な生成を引き起こすスケール不整合と、参照入力の順序が被写体歪みを引き起こす置換感度の2つの課題に直面している。
本稿では,両課題に対処する統合フレームワークであるMoFuを提案する。
スケール不整合性を確保するために,SMO(Scale-Aware Modulation)という,暗黙のスケールキューをプロンプトから抽出し,特徴を変調し,一貫した被写体サイズを確保するモジュールを導入する。
置換感度に対処するため,Fast Fourier Transform を用いて参照特徴の周波数情報を処理し,統一表現を生成する単純なフーリエ融合方式を提案する。
さらに,スケール一貫性と置換不変な生成を共同で促進するために,スケール-置換安定損失を設計する。
これらの課題を更に評価するために、主観的尺度と参照順応の制御されたバリエーションを持つ専用ベンチマークを構築した。
広汎な実験により、MoFuは自然スケール、主観的忠実度、全体的な視覚的品質の維持において、既存の手法を著しく上回っていることが示された。
関連論文リスト
- VarGes: Improving Variation in Co-Speech 3D Gesture Generation via StyleCLIPS [4.996271098355553]
VarGesは、共同音声ジェスチャ生成を強化するために設計された、新しい変分駆動フレームワークである。
提案手法は,ジェスチャの多様性と自然性の観点から,既存の手法よりも優れるベンチマークデータセットで検証されている。
論文 参考訳(メタデータ) (2025-02-15T08:46:01Z) - No Re-Train, More Gain: Upgrading Backbones with Diffusion model for Pixel-Wise and Weakly-Supervised Few-Shot Segmentation [22.263029309151467]
Few-Shot (FSS) は、注釈付き画像のみを使用して、新しいクラスを分割することを目的としている。
現在のFSSメソッドでは、再トレーニングなしでのバックボーンアップグレードの柔軟性、さまざまなアノテーションを均一に扱うことができない、という3つの問題に直面している。
本稿では,FSSタスクを拡散過程を用いた条件生成問題として概念化する新しいフレームワークであるDiffUpを提案する。
論文 参考訳(メタデータ) (2024-07-23T05:09:07Z) - Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文 参考訳(メタデータ) (2023-08-29T17:51:22Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。