論文の概要: Follow-Your-Click: Open-domain Regional Image Animation via Short
Prompts
- arxiv url: http://arxiv.org/abs/2403.08268v1
- Date: Wed, 13 Mar 2024 05:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:15:54.661008
- Title: Follow-Your-Click: Open-domain Regional Image Animation via Short
Prompts
- Title(参考訳): Follow-Your-Click:ショートによるオープンドメイン地域画像アニメーション
演目
- Authors: Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei
Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, and Qifeng Chen
- Abstract要約: 簡単なユーザクリックで画像アニメーションを実現するために,Follow-Your-Clickという実用的なフレームワークを提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
- 参考スコア(独自算出の注目度): 67.5094490054134
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite recent advances in image-to-video generation, better controllability
and local animation are less explored. Most existing image-to-video methods are
not locally aware and tend to move the entire scene. However, human artists may
need to control the movement of different objects or regions. Additionally,
current I2V methods require users not only to describe the target motion but
also to provide redundant detailed descriptions of frame contents. These two
issues hinder the practical utilization of current I2V tools. In this paper, we
propose a practical framework, named Follow-Your-Click, to achieve image
animation with a simple user click (for specifying what to move) and a short
motion prompt (for specifying how to move). Technically, we propose the
first-frame masking strategy, which significantly improves the video generation
quality, and a motion-augmented module equipped with a short motion prompt
dataset to improve the short prompt following abilities of our model. To
further control the motion speed, we propose flow-based motion magnitude
control to control the speed of target movement more precisely. Our framework
has simpler yet precise user control and better generation performance than
previous methods. Extensive experiments compared with 7 baselines, including
both commercial tools and research methods on 8 metrics, suggest the
superiority of our approach. Project Page: https://follow-your-click.github.io/
- Abstract(参考訳): 近年のイメージ・ツー・ビデオ生成の進歩にもかかわらず、制御性の向上と局所アニメーションの探索は少ない。
既存のイメージ・ツー・ビデオの手法の多くは、局所的に認識されておらず、シーン全体を移動させる傾向がある。
しかし、人間の芸術家は異なる物体や地域の動きを制御する必要があるかもしれない。
さらに、現在のI2V方式では、ユーザが対象の動作を記述するだけでなく、フレーム内容の冗長な詳細記述を提供する必要がある。
これらの2つの問題は、現在のI2Vツールの実用化を妨げている。
本稿では,Follow-Your-Clickという,簡単なユーザクリックと短い動作プロンプトで画像アニメーションを実現するための,実用的なフレームワークを提案する。
技術的には、映像生成の質を著しく向上させる第1フレームマスキング戦略と、短動きプロンプトデータセットを備えたモーション拡張モジュールを提案する。
運動速度をより正確に制御するために,より正確に目標運動の速度を制御するフローベース運動量制御を提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
商業ツールと8つのメトリクスに関する研究手法を含む7つの基準線と比較して、大規模な実験は、我々のアプローチの優位性を示唆している。
Project Page: https://follow-your-click.github.io/
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - Motion-I2V: Consistent and Controllable Image-to-Video Generation with
Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。
I2Vを2段階に分解し、明示的なモーションモデリングを行う。
Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文 参考訳(メタデータ) (2024-01-29T09:06:43Z) - MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video
Generation [131.1446077627191]
ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。
本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。
我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-28T09:38:45Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。