Fugu-MT 論文翻訳(概要): Boximator: Generating Rich and Controllable Motions for Video Synthesis

論文の概要: Boximator: Generating Rich and Controllable Motions for Video Synthesis

arxiv url: http://arxiv.org/abs/2402.01566v1
Date: Fri, 2 Feb 2024 16:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 14:15:23.103490
Title: Boximator: Generating Rich and Controllable Motions for Video Synthesis
Title（参考訳）: Boximator:ビデオ合成のためのリッチで制御可能なモーションの生成
Authors: Jiawei Wang, Yuchen Zhang, Jiaxin Zou, Yan Zeng, Guoqiang Wei, Liping Yuan, Hang Li
Abstract要約: Boximatorは、きめ細かいモーションコントロールのための新しいアプローチである。 Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。最先端のビデオ品質(FVD)スコアを達成し、2つのベースモデルを改善し、ボックス制約を組み込んだ後にさらに強化する。
参考スコア（独自算出の注目度）: 12.891562157919237
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating rich and controllable motion is a pivotal challenge in video synthesis. We propose Boximator, a new approach for fine-grained motion control. Boximator introduces two constraint types: hard box and soft box. Users select objects in the conditional frame using hard boxes and then use either type of boxes to roughly or rigorously define the object's position, shape, or motion path in future frames. Boximator functions as a plug-in for existing video diffusion models. Its training process preserves the base model's knowledge by freezing the original weights and training only the control module. To address training challenges, we introduce a novel self-tracking technique that greatly simplifies the learning of box-object correlations. Empirically, Boximator achieves state-of-the-art video quality (FVD) scores, improving on two base models, and further enhanced after incorporating box constraints. Its robust motion controllability is validated by drastic increases in the bounding box alignment metric. Human evaluation also shows that users favor Boximator generation results over the base model.
Abstract（参考訳）: リッチで制御可能な動きを生成することは、ビデオ合成における重要な課題である。運動制御のための新しい手法であるBoximatorを提案する。 Boximatorはハードボックスとソフトボックスという2つの制約タイプを導入している。ユーザーはハードボックスを使用して条件付きフレーム内のオブジェクトを選択し、いずれのタイプのボックスを使用して、将来のフレームにおけるオブジェクトの位置、形状、動作経路を概略的または厳密に定義する。 Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。その訓練プロセスは、元の重み付けを凍結し、制御モジュールのみを訓練することで、ベースモデルの知識を保存する。学習課題に対処するために,箱-対象相関の学習を単純化する新しい自己追跡手法を提案する。経験上、boximatorは最先端のビデオ品質(fvd)スコアを達成し、2つのベースモデルで改善し、ボックス制約を組み込んだ後にさらに強化する。その頑健な動き制御性は、境界箱アライメント計量の急激な増加によって検証される。人的評価は、ユーザーがベースモデルよりもBoximator生成結果を好むことを示している。

関連論文リスト

MotionBridge: Dynamic Video Inbetweening with Flexible Controls [29.029643539300434]
我々はMotionBridgeを紹介した。トラジェクティブストローク、ビデオ編集マスク、ガイドピクセル、テキストビデオなど、柔軟なコントロールが可能だ。このようなマルチモーダル制御は、よりダイナミックでカスタマイズ可能で、文脈的に正確な視覚的物語を可能にする。
論文参考訳（メタデータ） (2024-12-17T18:59:33Z)
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [42.506988751934685]
本研究では、特定の主題と動きの軌跡でビデオを生成することができるゼロショットビデオカスタマイズフレームワークDreamVideo-2を提案する。具体的には,対象学習におけるモデル固有の能力を活用する参照アテンションを導入する。我々は,ボックスマスクの頑健な動作信号を完全に活用して,高精度な動作制御を実現するためのマスク誘導型モーションモジュールを考案した。
論文参考訳（メタデータ） (2024-10-17T17:52:57Z)
Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本研究では,2次元または3次元境界ボックスのピクセルレベルのレンダリングを条件付けとして,制御可能な映像生成モデルを提案する。また、初期フレームと終端フレームのバウンディングボックスから最大15フレームまでのバウンディングボックスを25フレームクリップで予測できるバウンディングボックス予測器を作成する。
論文参考訳（メタデータ） (2024-06-09T03:44:35Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [11.655256653219604]
テキスト・ツー・ビデオ(T2V)生成における制御性はしばしば課題である。我々はキーフレーミングの概念を導入し、対象の軌跡と全体の外観を移動境界ボックスと対応するプロンプトの両方でガイドできるようにする。箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
論文参考訳（メタデータ） (2023-12-31T10:51:52Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-end Oriented Object Detection with Single Point Supervision [81.60564776995682]
我々は、ポイント教師付きオブジェクト検出のためのエンドツーエンドソリューションであるPoint2RBoxを提案する。提案手法は軽量なパラダイムを用いているが,点教師付き代替品間での競合性能を実現する。特に,本手法は軽量なパラダイムを用いるが,点教師付き代替品間での競合性能を実現する。
論文参考訳（メタデータ） (2023-11-23T15:57:41Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)
H2RBox: Horizonal Box Annotation is All You Need for Oriented Object Detection [63.66553556240689]
オブジェクト指向物体検出は、空中画像から自律運転に至るまで、多くの用途に現れる。多くの既存の検出ベンチマークには水平バウンディングボックスがアノテートされているが、これはきめ細かな回転ボックスよりもコストが低い。本稿では,H2RBoxと呼ばれる単純なオブジェクト指向検出手法を提案する。
論文参考訳（メタデータ） (2022-10-13T05:12:45Z)
BoxeR: Box-Attention for 2D and 3D Transformers [36.03241565421038]
入力特徴写像上の参照ウィンドウからの変換を予測し,ボックスの集合に付随するボックストランスフォーマーの略であるBoxeRを提案する。 BoxeR-2Dはそのアテンションモジュール内のボックス情報を自然に理由付け、エンドツーエンドのインスタンス検出とセグメンテーションタスクに適している。 BoxeR-3Dは、鳥眼面から識別情報を生成し、3Dのエンドツーエンド物体検出を行う。
論文参考訳（メタデータ） (2021-11-25T13:54:25Z)
Xp-GAN: Unsupervised Multi-object Controllable Video Generation [8.807587076209566]
ビデオ生成は比較的新しいが、機械学習では人気がある。ビデオ生成の現在の手法は、生成ビデオ内のオブジェクトの移動方法の正確な仕様をほとんど、あるいはまったく制御しない。そこで,本研究では,対象物の上に有界なボックスを描き,そのボックスを所望の経路で移動させることで,単一の初期フレームの任意のオブジェクトを移動させる手法を提案する。
論文参考訳（メタデータ） (2021-11-19T14:10:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。