Fugu-MT 論文翻訳(概要): LivePhoto: Real Image Animation with Text-guided Motion Control

論文の概要: LivePhoto: Real Image Animation with Text-guided Motion Control

arxiv url: http://arxiv.org/abs/2312.02928v1
Date: Tue, 5 Dec 2023 17:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 14:44:23.325206
Title: LivePhoto: Real Image Animation with Text-guided Motion Control
Title（参考訳）: LivePhoto:テキスト誘導モーションコントロールによるリアルイメージアニメーション
Authors: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
Abstract要約: この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
参考スコア（独自算出の注目度）: 51.31418077586208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the recent progress in text-to-video generation, existing studies usually overlook the issue that only spatial contents but not temporal motions in synthesized videos are under the control of text. Towards such a challenge, this work presents a practical system, named LivePhoto, which allows users to animate an image of their interest with text descriptions. We first establish a strong baseline that helps a well-learned text-to-image generator (i.e., Stable Diffusion) take an image as a further input. We then equip the improved generator with a motion module for temporal modeling and propose a carefully designed training pipeline to better link texts and motions. In particular, considering the facts that (1) text can only describe motions roughly (e.g., regardless of the moving speed) and (2) text may include both content and motion descriptions, we introduce a motion intensity estimation module as well as a text re-weighting module to reduce the ambiguity of text-to-motion mapping. Empirical evidence suggests that our approach is capable of well decoding motion-related textual instructions into videos, such as actions, camera movements, or even conjuring new contents from thin air (e.g., pouring water into an empty glass). Interestingly, thanks to the proposed intensity learning mechanism, our system offers users an additional control signal (i.e., the motion intensity) besides text for video customization.
Abstract（参考訳）: 近年のテキスト・ビデオ生成の進歩にもかかわらず、既存の研究は通常、合成ビデオにおける空間的内容だけでなく時間的動きもテキストの制御下にあるという問題を見逃している。このような課題に対して,本研究はLivePhotoという,ユーザが興味を抱く画像をテキスト記述でアニメーションできる実用的なシステムを提案する。まず,画像生成装置(安定拡散)が画像をさらに入力として取り出すのに役立つ強固なベースラインを確立する。次に,改良されたジェネレータに時間モデリングのためのモーションモジュールを装備し,テキストと動作のリンクを改善するための注意深く設計されたトレーニングパイプラインを提案する。特に,(1)テキストが大まかな動き(例えば,移動速度によらず)しか記述できないこと,(2)テキストが内容と動作記述の両方を含む可能性があることを考慮すると,動き強度推定モジュールとテキスト重み付けモジュールを導入して,テキスト間マッピングの曖昧さを低減する。実験的な証拠は、我々のアプローチが動きに関連するテキストの指示を、アクション、カメラの動き、さらには薄い空気(例えば、空のガラスに水を注ぐなど)から新しいコンテンツを合成するビデオにうまくデコードできることを示している。興味深いことに、提案したインテンシティ学習機構により、ビデオのカスタマイズのためのテキスト以外に、ユーザに対して追加の制御信号(つまり、モーションインテンシティ)を提供する。

関連論文リスト

MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文参考訳（メタデータ） (2025-02-05T14:26:07Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning [26.44634685830323]
本稿では,テキスト・トゥ・ビデオ(T2V)生成における動き合成を強化するためのDecomposed Motion (DEMO) という新しいフレームワークを提案する。本手法は,静的要素のためのコンテンツエンコーダと,時間的ダイナミクスのためのモーションエンコーダと,コンテンツと動作条件の分離機構を含む。視覚的品質を保ちながら、モーションダイナミクスを向上した動画を制作するDEMOの優れた能力を実証する。
論文参考訳（メタデータ） (2024-10-31T17:59:53Z)
Unimotion: Unifying 3D Human Motion Synthesis and Understanding [47.18338511861108]
フレキシブル・モーション・コントロールとフレームレベルのモーション・理解を両立できる初のマルチタスク・ヒューマン・モーション・モデルであるUnimotionを導入する。 Unimotionは、グローバルテキストやローカルフレームレベルのテキストでモーションを制御できる。
論文参考訳（メタデータ） (2024-09-24T09:20:06Z)
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文参考訳（メタデータ） (2024-08-01T10:55:20Z)
Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文参考訳（メタデータ） (2024-06-25T17:59:41Z)
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文参考訳（メタデータ） (2024-04-17T17:59:55Z)
Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。 FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文参考訳（メタデータ） (2024-03-20T11:38:30Z)
Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文参考訳（メタデータ） (2023-11-13T16:22:38Z)
Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。 NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文参考訳（メタデータ） (2022-10-28T06:20:55Z)
Animating Pictures with Eulerian Motion Fields [90.30598913855216]
静止画をリアルなアニメーションループ映像に変換する完全自動手法を示す。流れ水や吹く煙など,連続流体運動の場面を対象とする。本稿では,前向きと後向きの両方に特徴を流し,その結果をブレンドする新しいビデオループ手法を提案する。
論文参考訳（メタデータ） (2020-11-30T18:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。