論文の概要: LivePhoto: Real Image Animation with Text-guided Motion Control
- arxiv url: http://arxiv.org/abs/2312.02928v1
- Date: Tue, 5 Dec 2023 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:44:23.325206
- Title: LivePhoto: Real Image Animation with Text-guided Motion Control
- Title(参考訳): LivePhoto:テキスト誘導モーションコントロールによるリアルイメージアニメーション
- Authors: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen,
Hengshuang Zhao
- Abstract要約: この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 51.31418077586208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent progress in text-to-video generation, existing studies
usually overlook the issue that only spatial contents but not temporal motions
in synthesized videos are under the control of text. Towards such a challenge,
this work presents a practical system, named LivePhoto, which allows users to
animate an image of their interest with text descriptions. We first establish a
strong baseline that helps a well-learned text-to-image generator (i.e., Stable
Diffusion) take an image as a further input. We then equip the improved
generator with a motion module for temporal modeling and propose a carefully
designed training pipeline to better link texts and motions. In particular,
considering the facts that (1) text can only describe motions roughly (e.g.,
regardless of the moving speed) and (2) text may include both content and
motion descriptions, we introduce a motion intensity estimation module as well
as a text re-weighting module to reduce the ambiguity of text-to-motion
mapping. Empirical evidence suggests that our approach is capable of well
decoding motion-related textual instructions into videos, such as actions,
camera movements, or even conjuring new contents from thin air (e.g., pouring
water into an empty glass). Interestingly, thanks to the proposed intensity
learning mechanism, our system offers users an additional control signal (i.e.,
the motion intensity) besides text for video customization.
- Abstract(参考訳): 近年のテキスト・ビデオ生成の進歩にもかかわらず、既存の研究は通常、合成ビデオにおける空間的内容だけでなく時間的動きもテキストの制御下にあるという問題を見逃している。
このような課題に対して,本研究はLivePhotoという,ユーザが興味を抱く画像をテキスト記述でアニメーションできる実用的なシステムを提案する。
まず,画像生成装置(安定拡散)が画像をさらに入力として取り出すのに役立つ強固なベースラインを確立する。
次に,改良されたジェネレータに時間モデリングのためのモーションモジュールを装備し,テキストと動作のリンクを改善するための注意深く設計されたトレーニングパイプラインを提案する。
特に,(1)テキストが大まかな動き(例えば,移動速度によらず)しか記述できないこと,(2)テキストが内容と動作記述の両方を含む可能性があることを考慮すると,動き強度推定モジュールとテキスト重み付けモジュールを導入して,テキスト間マッピングの曖昧さを低減する。
実験的な証拠は、我々のアプローチが動きに関連するテキストの指示を、アクション、カメラの動き、さらには薄い空気(例えば、空のガラスに水を注ぐなど)から新しいコンテンツを合成するビデオにうまくデコードできることを示している。
興味深いことに、提案したインテンシティ学習機構により、ビデオのカスタマイズのためのテキスト以外に、ユーザに対して追加の制御信号(つまり、モーションインテンシティ)を提供する。
関連論文リスト
- Iterative Motion Editing with Natural Language [26.03987547043184]
本稿では,既存の文字アニメーションに局所的な編集を反復的に指定するために自然言語を用いる手法を提案する。
我々は、既存の言語を利用して、モーション編集のテキスト記述をモーション編集オペレータのシーケンスに変換するアルゴリズムを提案する。
本システムは,アニメーターの編集意図を尊重し,オリジナルアニメーションに忠実であり,リアルなキャラクターアニメーション結果が得られることを実証する。
論文 参考訳(メタデータ) (2023-12-15T22:38:24Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer [27.278989809466392]
本稿では,対象オブジェクトとシーンを記述する入力テキストプロンプトに準拠する動画を合成する,テキスト駆動型モーショントランスファーの新しい手法を提案する。
我々は、事前に訓練された、固定されたテキスト-ビデオ拡散モデルを活用し、生成および動きの先行情報を提供する。
論文 参考訳(メタデータ) (2023-11-28T18:03:27Z) - FlowZero: Zero-Shot Text-to-Video Synthesis with LLM-Driven Dynamic
Scene Syntax [72.89879499617858]
FlowZeroは、LLM(Large Language Models)と画像拡散モデルを組み合わせたフレームワークで、時間的に一貫したビデオを生成する。
FlowZeroはゼロショットビデオ合成の改善を実現し、鮮明なモーションでコヒーレントなビデオを生成する。
論文 参考訳(メタデータ) (2023-11-27T13:39:44Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。
連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-06T17:59:31Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Animating Pictures with Eulerian Motion Fields [90.30598913855216]
静止画をリアルなアニメーションループ映像に変換する完全自動手法を示す。
流れ水や吹く煙など,連続流体運動の場面を対象とする。
本稿では,前向きと後向きの両方に特徴を流し,その結果をブレンドする新しいビデオループ手法を提案する。
論文 参考訳(メタデータ) (2020-11-30T18:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。