Fugu-MT 論文翻訳(概要): Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

論文の概要: Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

arxiv url: http://arxiv.org/abs/2403.08268v1
Date: Wed, 13 Mar 2024 05:44:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 15:15:54.661008
Title: Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts
Title（参考訳）: Follow-Your-Click:ショートによるオープンドメイン地域画像アニメーション演目
Authors: Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, and Qifeng Chen
Abstract要約: 簡単なユーザクリックで画像アニメーションを実現するために,Follow-Your-Clickという実用的なフレームワークを提案する。我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
参考スコア（独自算出の注目度）: 67.5094490054134
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite recent advances in image-to-video generation, better controllability and local animation are less explored. Most existing image-to-video methods are not locally aware and tend to move the entire scene. However, human artists may need to control the movement of different objects or regions. Additionally, current I2V methods require users not only to describe the target motion but also to provide redundant detailed descriptions of frame contents. These two issues hinder the practical utilization of current I2V tools. In this paper, we propose a practical framework, named Follow-Your-Click, to achieve image animation with a simple user click (for specifying what to move) and a short motion prompt (for specifying how to move). Technically, we propose the first-frame masking strategy, which significantly improves the video generation quality, and a motion-augmented module equipped with a short motion prompt dataset to improve the short prompt following abilities of our model. To further control the motion speed, we propose flow-based motion magnitude control to control the speed of target movement more precisely. Our framework has simpler yet precise user control and better generation performance than previous methods. Extensive experiments compared with 7 baselines, including both commercial tools and research methods on 8 metrics, suggest the superiority of our approach. Project Page: https://follow-your-click.github.io/
Abstract（参考訳）: 近年のイメージ・ツー・ビデオ生成の進歩にもかかわらず、制御性の向上と局所アニメーションの探索は少ない。既存のイメージ・ツー・ビデオの手法の多くは、局所的に認識されておらず、シーン全体を移動させる傾向がある。しかし、人間の芸術家は異なる物体や地域の動きを制御する必要があるかもしれない。さらに、現在のI2V方式では、ユーザが対象の動作を記述するだけでなく、フレーム内容の冗長な詳細記述を提供する必要がある。これらの2つの問題は、現在のI2Vツールの実用化を妨げている。本稿では,Follow-Your-Clickという,簡単なユーザクリックと短い動作プロンプトで画像アニメーションを実現するための,実用的なフレームワークを提案する。技術的には、映像生成の質を著しく向上させる第1フレームマスキング戦略と、短動きプロンプトデータセットを備えたモーション拡張モジュールを提案する。運動速度をより正確に制御するために,より正確に目標運動の速度を制御するフローベース運動量制御を提案する。我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。商業ツールと8つのメトリクスに関する研究手法を含む7つの基準線と比較して、大規模な実験は、我々のアプローチの優位性を示唆している。 Project Page: https://follow-your-click.github.io/

関連論文リスト

ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
MotionPro: A Precise Motion Controller for Image-to-Video Generation [108.63100943070592]
我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。 WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
論文参考訳（メタデータ） (2025-05-26T17:59:03Z)
Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文参考訳（メタデータ） (2025-02-18T19:12:51Z)
MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文参考訳（メタデータ） (2025-02-05T14:26:07Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文参考訳（メタデータ） (2024-08-01T10:55:20Z)
MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文参考訳（メタデータ） (2024-06-25T17:42:25Z)
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文参考訳（メタデータ） (2024-05-30T17:57:30Z)
Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文参考訳（メタデータ） (2024-05-27T16:08:00Z)
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文参考訳（メタデータ） (2024-02-05T16:30:57Z)
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。 I2Vを2段階に分解し、明示的なモーションモデリングを行う。 Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文参考訳（メタデータ） (2024-01-29T09:06:43Z)
LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2023-12-05T17:59:52Z)
MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video Generation [131.1446077627191]
ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
論文参考訳（メタデータ） (2023-11-28T09:38:45Z)
AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance [13.416296247896042]
本稿では,映像拡散モデルに先立って動きを利用するオープンドメイン画像アニメーション手法を提案する。本手法では,移動領域の正確な制御と移動速度を実現するため,目標となる運動領域の誘導と運動強度の誘導を導入する。オープンドメインデータセットを用いた厳密な実験により,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-11-21T03:47:54Z)
InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。 InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文参考訳（メタデータ） (2023-03-14T17:58:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。