論文の概要: Boximator: Generating Rich and Controllable Motions for Video Synthesis
- arxiv url: http://arxiv.org/abs/2402.01566v1
- Date: Fri, 2 Feb 2024 16:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:15:23.103490
- Title: Boximator: Generating Rich and Controllable Motions for Video Synthesis
- Title(参考訳): Boximator:ビデオ合成のためのリッチで制御可能なモーションの生成
- Authors: Jiawei Wang, Yuchen Zhang, Jiaxin Zou, Yan Zeng, Guoqiang Wei, Liping
Yuan, Hang Li
- Abstract要約: Boximatorは、きめ細かいモーションコントロールのための新しいアプローチである。
Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。
最先端のビデオ品質(FVD)スコアを達成し、2つのベースモデルを改善し、ボックス制約を組み込んだ後にさらに強化する。
- 参考スコア(独自算出の注目度): 12.891562157919237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating rich and controllable motion is a pivotal challenge in video
synthesis. We propose Boximator, a new approach for fine-grained motion
control. Boximator introduces two constraint types: hard box and soft box.
Users select objects in the conditional frame using hard boxes and then use
either type of boxes to roughly or rigorously define the object's position,
shape, or motion path in future frames. Boximator functions as a plug-in for
existing video diffusion models. Its training process preserves the base
model's knowledge by freezing the original weights and training only the
control module. To address training challenges, we introduce a novel
self-tracking technique that greatly simplifies the learning of box-object
correlations. Empirically, Boximator achieves state-of-the-art video quality
(FVD) scores, improving on two base models, and further enhanced after
incorporating box constraints. Its robust motion controllability is validated
by drastic increases in the bounding box alignment metric. Human evaluation
also shows that users favor Boximator generation results over the base model.
- Abstract(参考訳): リッチで制御可能な動きを生成することは、ビデオ合成における重要な課題である。
運動制御のための新しい手法であるBoximatorを提案する。
Boximatorはハードボックスとソフトボックスという2つの制約タイプを導入している。
ユーザーはハードボックスを使用して条件付きフレーム内のオブジェクトを選択し、いずれのタイプのボックスを使用して、将来のフレームにおけるオブジェクトの位置、形状、動作経路を概略的または厳密に定義する。
Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。
その訓練プロセスは、元の重み付けを凍結し、制御モジュールのみを訓練することで、ベースモデルの知識を保存する。
学習課題に対処するために,箱-対象相関の学習を単純化する新しい自己追跡手法を提案する。
経験上、boximatorは最先端のビデオ品質(fvd)スコアを達成し、2つのベースモデルで改善し、ボックス制約を組み込んだ後にさらに強化する。
その頑健な動き制御性は、境界箱アライメント計量の急激な増加によって検証される。
人的評価は、ユーザーがベースモデルよりもBoximator生成結果を好むことを示している。
関連論文リスト
- TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [13.099340448183803]
テキスト・ツー・ビデオ(T2V)生成における制御性はしばしば課題である。
我々はキーフレーミングの概念を導入し、対象の軌跡と全体の外観を移動境界ボックスと対応するプロンプトの両方でガイドできるようにする。
箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
論文 参考訳(メタデータ) (2023-12-31T10:51:52Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Point2RBox: Combine Knowledge from Synthetic Visual Patterns for
End-to-end Oriented Object Detection with Single Point Supervision [80.386636238141]
本稿では,ポイント教師付きオブジェクト検出のためのPoint2RBoxという手法を提案する。
提案手法は軽量なパラダイムを用いているが,点教師付き代替品間での競合性能を実現する。
特に,本手法は軽量なパラダイムを用いるが,点教師付き代替品間での競合性能を実現する。
論文 参考訳(メタデータ) (2023-11-23T15:57:41Z) - BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained
Diffusion [44.381568605808845]
本稿では,ボックスやスクリブルなどのユーザ提供条件の最も単純な形式に焦点を当てる。
本研究では,空間条件に順応した合成画像のオブジェクトとコンテキストを制御する訓練自由な手法を提案する。
具体的には、3つの空間的制約、すなわち、インナーボックス、アウターボックス、コーナー制約を、拡散モデルの妄想的なステップにシームレスに統合する。
論文 参考訳(メタデータ) (2023-07-20T12:25:06Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - H2RBox: Horizonal Box Annotation is All You Need for Oriented Object
Detection [63.66553556240689]
オブジェクト指向物体検出は、空中画像から自律運転に至るまで、多くの用途に現れる。
多くの既存の検出ベンチマークには水平バウンディングボックスがアノテートされているが、これはきめ細かな回転ボックスよりもコストが低い。
本稿では,H2RBoxと呼ばれる単純なオブジェクト指向検出手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T05:12:45Z) - BoxeR: Box-Attention for 2D and 3D Transformers [36.03241565421038]
入力特徴写像上の参照ウィンドウからの変換を予測し,ボックスの集合に付随するボックストランスフォーマーの略であるBoxeRを提案する。
BoxeR-2Dはそのアテンションモジュール内のボックス情報を自然に理由付け、エンドツーエンドのインスタンス検出とセグメンテーションタスクに適している。
BoxeR-3Dは、鳥眼面から識別情報を生成し、3Dのエンドツーエンド物体検出を行う。
論文 参考訳(メタデータ) (2021-11-25T13:54:25Z) - Xp-GAN: Unsupervised Multi-object Controllable Video Generation [8.807587076209566]
ビデオ生成は比較的新しいが、機械学習では人気がある。
ビデオ生成の現在の手法は、生成ビデオ内のオブジェクトの移動方法の正確な仕様をほとんど、あるいはまったく制御しない。
そこで,本研究では,対象物の上に有界なボックスを描き,そのボックスを所望の経路で移動させることで,単一の初期フレームの任意のオブジェクトを移動させる手法を提案する。
論文 参考訳(メタデータ) (2021-11-19T14:10:50Z) - End-to-end Deep Object Tracking with Circular Loss Function for Rotated
Bounding Box [68.8204255655161]
Transformer Multi-Head Attentionアーキテクチャに基づく新しいエンドツーエンドのディープラーニング手法を紹介します。
また,境界ボックスの重なりと向きを考慮に入れた新しいタイプの損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-17T17:29:29Z) - Dive Deeper Into Box for Object Detection [49.923586776690115]
そこで我々は,より正確な位置決めを行うために,ボックスに深く潜り込むことができるボックス再構成手法(DDBNet)を提案する。
実験結果から,本手法はオブジェクト検出の最先端性能に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-15T07:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。