論文の概要: LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation
- arxiv url: http://arxiv.org/abs/2404.13558v3
- Date: Sun, 23 Mar 2025 08:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:30:42.430511
- Title: LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation
- Title(参考訳): LASER: 効率的なテキスト・コンディショニング・イメージ・トゥ・アニメーションのためのチューニング不要なLCM駆動アテンション制御
- Authors: Haoyu Zheng, Wenqiao Zhang, Yaoke Wang, Juncheng Li, Zheqi Lv, Xin Min, Mengze Li, Dongping Zhang, Siliang Tang, Yueting Zhuang,
- Abstract要約: LASERは、チューニング不要のLCM駆動のアテンションコントロールフレームワークである。
テキスト条件付きイメージ・トゥ・アニメーションベンチマークを提案し,その有効性と有効性を検証する。
- 参考スコア(独自算出の注目度): 52.16008431411513
- License:
- Abstract: Revolutionary advancements in text-to-image models have unlocked new dimensions for sophisticated content creation, such as text-conditioned image editing, enabling the modification of existing images based on textual guidance. This capability allows for the generation of diverse images that convey highly complex visual concepts. However, existing methods primarily focus on generating new images from text-image pairs and struggle to produce fine-grained animations from existing images and textual guidance without fine-tuning. In this paper, we introduce LASER, a tuning-free LLM-driven attention control framework that follows a progressive process: LLM planning, feature-attention injection, and stable animation generation. LASER leverages a large language model (LLM) to refine general descriptions into fine-grained prompts, guiding pre-trained text-to-image models to generate aligned keyframes with subtle variations. The LLM also generates control signals for feature and attention injections, enabling seamless text-guided image morphing for various transformations without additional fine-tuning. By using the same initial noise inversion from the input image, LASER receives LLM-controlled injections during denoising and leverages interpolated text embeddings to produce a series of coherent animation frames. We propose a Text-conditioned Image-to-Animation Benchmark to validate the effectiveness and efficacy of LASER. Extensive experiments demonstrate that LASER achieves impressive results in consistent and efficient animation generation, establishing it as a powerful tool for producing detailed animations and opening new avenues in digital content creation.
- Abstract(参考訳): テキスト-画像モデルの革命的進歩は、テキスト条件付き画像編集のような洗練されたコンテンツ作成のための新しい次元を解放し、テキストガイダンスに基づいた既存の画像の変更を可能にした。
この能力により、非常に複雑な視覚概念を伝達する多様な画像を生成することができる。
しかし、既存の手法は、主にテキストイメージペアから新しい画像を生成することに集中し、既存の画像からきめ細かいアニメーションを作成するのに苦労する。
本稿では,LCM計画,機能意図注入,安定なアニメーション生成など,段階的なプロセスに追従する,チューニング不要なLCM駆動型アテンション制御フレームワークであるLASERを紹介する。
LASERは、大きな言語モデル(LLM)を利用して、一般的な記述をきめ細かなプロンプトに洗練し、事前訓練されたテキスト・ツー・イメージのモデルを誘導し、微妙なバリエーションで整列キーフレームを生成する。
LLMはまた、特徴および注意注入のための制御信号も生成し、様々な変換のためのシームレスなテキスト誘導画像モーフィングを、追加の微調整なしで実現している。
入力画像からの同じ初期ノイズインバージョンを使用することで、LASERは復調中にLDM制御注入を受け、補間テキスト埋め込みを利用して一連のコヒーレントなアニメーションフレームを生成する。
テキスト条件付きイメージ・トゥ・アニメーションベンチマークを提案し,その有効性と有効性を検証する。
広範囲にわたる実験により、LASERは、一貫性のある効率的なアニメーション生成において印象的な結果を達成し、詳細なアニメーションを作成し、デジタルコンテンツ作成に新たな道を開くための強力なツールとして確立した。
関連論文リスト
- Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - FlowZero: Zero-Shot Text-to-Video Synthesis with LLM-Driven Dynamic
Scene Syntax [72.89879499617858]
FlowZeroは、LLM(Large Language Models)と画像拡散モデルを組み合わせたフレームワークで、時間的に一貫したビデオを生成する。
FlowZeroはゼロショットビデオ合成の改善を実現し、鮮明なモーションでコヒーレントなビデオを生成する。
論文 参考訳(メタデータ) (2023-11-27T13:39:44Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Language Models Can See: Plugging Visual Controls in Text Generation [48.05127160095048]
本稿では,生成プロセスにおいて視覚制御をプラグインする,MAGICと呼ばれる学習不要のフレームワークを提案する。
MAGICは、既製のLM(GPT-2)と画像グラウンドドテキスト生成のための画像テキストマッチングモデル(CLIP)を直接組み合わせた、プラグアンドプレイのフレームワークである。
ゼロショット画像キャプションの課題に対して、MAGICは最先端の手法を顕著なマージンで上回り、27倍のデコードスピードアップを達成している。
論文 参考訳(メタデータ) (2022-05-05T13:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。