論文の概要: LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation
- arxiv url: http://arxiv.org/abs/2404.13558v1
- Date: Sun, 21 Apr 2024 07:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:31:12.392820
- Title: LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation
- Title(参考訳): LASER: 効率的なテキスト・コンディショニング・イメージ・トゥ・アニメーションのためのチューニング不要なLCM駆動アテンション制御
- Authors: Haoyu Zheng, Wenqiao Zhang, Yaoke Wang, Hao Zhou, Jiang Liu, Juncheng Li, Zheqi Lv, Siliang Tang, Yueting Zhuang,
- Abstract要約: 本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
- 参考スコア(独自算出の注目度): 62.232361821779335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Revolutionary advancements in text-to-image models have unlocked new dimensions for sophisticated content creation, e.g., text-conditioned image editing, allowing us to edit the diverse images that convey highly complex visual concepts according to the textual guidance. Despite being promising, existing methods focus on texture- or non-rigid-based visual manipulation, which struggles to produce the fine-grained animation of smooth text-conditioned image morphing without fine-tuning, i.e., due to their highly unstructured latent space. In this paper, we introduce a tuning-free LLM-driven attention control framework, encapsulated by the progressive process of LLM planning, prompt-Aware editing, StablE animation geneRation, abbreviated as LASER. LASER employs a large language model (LLM) to refine coarse descriptions into detailed prompts, guiding pre-trained text-to-image models for subsequent image generation. We manipulate the model's spatial features and self-attention mechanisms to maintain animation integrity and enable seamless morphing directly from text prompts, eliminating the need for additional fine-tuning or annotations. Our meticulous control over spatial features and self-attention ensures structural consistency in the images. This paper presents a novel framework integrating LLMs with text-to-image models to create high-quality animations from a single text input. We also propose a Text-conditioned Image-to-Animation Benchmark to validate the effectiveness and efficacy of LASER. Extensive experiments demonstrate that LASER produces impressive, consistent, and efficient results in animation generation, positioning it as a powerful tool for advanced digital content creation.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルの革命的進歩は、テキスト条件付き画像編集などの高度なコンテンツ作成のための新しい次元を解放し、テキストガイダンスに基づいて、非常に複雑な視覚概念を伝達する多様な画像の編集を可能にした。
有望であるにもかかわらず、既存の手法ではテクスチャや非剛体的な視覚操作に重点を置いており、スムーズなテキストコンディショニング画像モーフィングの微粒なアニメーションの作成に苦労している。
本稿では,LLM計画,プロンプト・アウェア編集,StablEアニメーションジェネレーション(LASER)の進歩的なプロセスによってカプセル化された,チューニング不要なLCM駆動型アテンション制御フレームワークを提案する。
LASERは、大きめの言語モデル(LLM)を使用して、粗い記述を詳細なプロンプトに洗練し、後続の画像生成のための事前訓練されたテキスト・ツー・イメージモデルを導く。
モデルの空間的特徴と自己認識機構を操作してアニメーションの完全性を維持し、テキストプロンプトから直接シームレスなモーフィングを可能にし、追加の微調整やアノテーションを不要にする。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
本稿では、1つのテキスト入力から高品質なアニメーションを作成するために、LLMとテキスト・ツー・イメージ・モデルを統合する新しいフレームワークを提案する。
また,RAERの有効性と有効性を検証するためのテキストコンディショニング・イメージ・トゥ・アニメーションベンチマークを提案する。
大規模な実験により、LASERはアニメーション生成において印象的で一貫性があり、効率のよい結果をもたらすことが示され、高度なデジタルコンテンツ作成のための強力なツールとして位置づけられている。
関連論文リスト
- Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - FlowZero: Zero-Shot Text-to-Video Synthesis with LLM-Driven Dynamic
Scene Syntax [72.89879499617858]
FlowZeroは、LLM(Large Language Models)と画像拡散モデルを組み合わせたフレームワークで、時間的に一貫したビデオを生成する。
FlowZeroはゼロショットビデオ合成の改善を実現し、鮮明なモーションでコヒーレントなビデオを生成する。
論文 参考訳(メタデータ) (2023-11-27T13:39:44Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Language Models Can See: Plugging Visual Controls in Text Generation [48.05127160095048]
本稿では,生成プロセスにおいて視覚制御をプラグインする,MAGICと呼ばれる学習不要のフレームワークを提案する。
MAGICは、既製のLM(GPT-2)と画像グラウンドドテキスト生成のための画像テキストマッチングモデル(CLIP)を直接組み合わせた、プラグアンドプレイのフレームワークである。
ゼロショット画像キャプションの課題に対して、MAGICは最先端の手法を顕著なマージンで上回り、27倍のデコードスピードアップを達成している。
論文 参考訳(メタデータ) (2022-05-05T13:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。