Fugu-MT 論文翻訳(概要): MotionBridge: Dynamic Video Inbetweening with Flexible Controls

論文の概要: MotionBridge: Dynamic Video Inbetweening with Flexible Controls

arxiv url: http://arxiv.org/abs/2412.13190v2
Date: Mon, 23 Dec 2024 07:19:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 15:18:31.17961
Title: MotionBridge: Dynamic Video Inbetweening with Flexible Controls
Title（参考訳）: MotionBridge: フレキシブルなコントロールを備えた動的ビデオインテグレーティング
Authors: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao,
Abstract要約: 我々はMotionBridgeを紹介した。トラジェクティブストローク、ビデオ編集マスク、ガイドピクセル、テキストビデオなど、柔軟なコントロールが可能だ。このようなマルチモーダル制御は、よりダイナミックでカスタマイズ可能で、文脈的に正確な視覚的物語を可能にする。
参考スコア（独自算出の注目度）: 29.029643539300434
License: http://creativecommons.org/licenses/by/4.0/
Abstract: By generating plausible and smooth transitions between two image frames, video inbetweening is an essential tool for video editing and long video synthesis. Traditional works lack the capability to generate complex large motions. While recent video generation techniques are powerful in creating high-quality results, they often lack fine control over the details of intermediate frames, which can lead to results that do not align with the creative mind. We introduce MotionBridge, a unified video inbetweening framework that allows flexible controls, including trajectory strokes, keyframes, masks, guide pixels, and text. However, learning such multi-modal controls in a unified framework is a challenging task. We thus design two generators to extract the control signal faithfully and encode feature through dual-branch embedders to resolve ambiguities. We further introduce a curriculum training strategy to smoothly learn various controls. Extensive qualitative and quantitative experiments have demonstrated that such multi-modal controls enable a more dynamic, customizable, and contextually accurate visual narrative.
Abstract（参考訳）: 2つの画像フレーム間の可塑性および滑らかな遷移を生成することにより、ビデオ編集と長いビデオ合成に不可欠なツールとなる。伝統的な作品は複雑な大きな動きを生み出す能力に欠けていた。最近のビデオ生成技術は高品質な結果を生成するのに強力だが、中間フレームの詳細を細かく制御できないことが多いため、創造的な心と一致しない結果につながる可能性がある。 MotionBridgeは、トラジェクティブストローク、キーフレーム、マスク、ガイドピクセル、テキストなど、フレキシブルなコントロールを可能にする、統合されたビデオインベジングフレームワークである。しかし、このようなマルチモーダル制御を統一フレームワークで学習することは難しい課題である。そこで我々は2つのジェネレータを設計し、制御信号を忠実に抽出し、両分岐埋め込み器を通じて特徴を符号化し、あいまいさを解消する。さらに,様々なコントロールを円滑に学習するためのカリキュラム学習戦略を導入する。広範に質的かつ定量的な実験により、このようなマルチモーダル制御により、よりダイナミックでカスタマイズ可能で、文脈的に正確な視覚的物語が可能になることが示されている。

関連論文リスト

AnyI2V: Animating Any Conditional Image with Motion Control [25.49332963076066]
我々は,任意の条件付き画像をユーザ定義のモーショントラジェクトリと一致させる,トレーニング不要のフレームワークであるAnyI2Vを提案する。実験により、提案したAnyI2Vは優れた性能を示し、空間及びモーション制御ビデオ生成における新たな視点を提供する。
論文参考訳（メタデータ） (2025-07-03T17:59:02Z)
OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [96.31455979495398]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2025-06-29T18:43:00Z)
Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models [59.62564091684881]
フレームレベル信号に基づく制御可能なビデオ生成のためのトレーニング不要ガイダンスであるFrame Guidanceを提案する。そこで本研究では,メモリ使用量を大幅に削減する簡易な潜時処理手法を提案する。我々は,グローバルコヒーレントビデオ生成のために設計された新しい潜在最適化手法を適用した。
論文参考訳（メタデータ） (2025-06-08T14:54:41Z)
ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。カメラの動き、物体の動き、照明方向を同時に制御できる。高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文参考訳（メタデータ） (2025-02-11T13:11:59Z)
DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。 MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文参考訳（メタデータ） (2024-12-24T18:51:19Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
I2VControl: Disentangled and Unified Video Motion Synthesis Control [11.83645633418189]
I2VControlは,映像合成における複数の動作制御タスクを統一するフレームワークである。提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。我々の方法論は、事前訓練されたモデルのためのプラグインとしてシームレスに統合され、特定のモデルアーキテクチャに依存しないままです。
論文参考訳（メタデータ） (2024-11-26T04:21:22Z)
AnimateAnything: Consistent and Controllable Animation for Video Generation [24.576022028967195]
本稿では,AnimateAnythingという統合制御可能なビデオ生成手法を提案する。様々な条件にまたがる正確で一貫したビデオ操作を容易にする。実験により,本手法は最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-11-16T16:36:49Z)
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [42.506988751934685]
本研究では、特定の主題と動きの軌跡でビデオを生成することができるゼロショットビデオカスタマイズフレームワークDreamVideo-2を提案する。具体的には,対象学習におけるモデル固有の能力を活用する参照アテンションを導入する。我々は,ボックスマスクの頑健な動作信号を完全に活用して,高精度な動作制御を実現するためのマスク誘導型モーションモジュールを考案した。
論文参考訳（メタデータ） (2024-10-17T17:52:57Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文参考訳（メタデータ） (2023-10-16T19:03:19Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
A Good Image Generator Is What You Need for High-Resolution Video Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文参考訳（メタデータ） (2021-04-30T15:38:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。