論文の概要: StoryGPT-V: Large Language Models as Consistent Story Visualizers
- arxiv url: http://arxiv.org/abs/2312.02252v3
- Date: Fri, 25 Apr 2025 12:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.594646
- Title: StoryGPT-V: Large Language Models as Consistent Story Visualizers
- Title(参考訳): StoryGPT-V: 一貫性のあるストーリービジュアライザとしての大規模言語モデル
- Authors: Xiaoqian Shen, Mohamed Elhoseiny,
- Abstract要約: 生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
本稿では,LDMとLDMの利点を生かしたemphStoryGPT-Vを提案する。
- 参考スコア(独自算出の注目度): 33.68157535461168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent generative models have demonstrated impressive capabilities in generating realistic and visually pleasing images grounded on textual prompts. Nevertheless, a significant challenge remains in applying these models for the more intricate task of story visualization. Since it requires resolving pronouns (he, she, they) in the frame descriptions, i.e., anaphora resolution, and ensuring consistent characters and background synthesis across frames. Yet, the emerging Large Language Model (LLM) showcases robust reasoning abilities to navigate through ambiguous references and process extensive sequences. Therefore, we introduce \emph{StoryGPT-V}, which leverages the merits of the latent diffusion (LDM) and LLM to produce images with consistent and high-quality characters grounded on given story descriptions. First, we train a character-aware LDM, which takes character-augmented semantic embedding as input and includes the supervision of the cross-attention map using character segmentation masks, aiming to enhance character generation accuracy and faithfulness. In the second stage, we enable an alignment between the output of LLM and the character-augmented embedding residing in the input space of the first-stage model. This harnesses the reasoning ability of LLM to address ambiguous references and the comprehension capability to memorize the context. We conduct comprehensive experiments on two visual story visualization benchmarks. Our model reports superior quantitative results and consistently generates accurate characters of remarkable quality with low memory consumption. Our code is publicly available at: \href{https://xiaoqian-shen.github.io/StoryGPT-V}{https://xiaoqian-shen.github.io/StoryGPT-V}.
- Abstract(参考訳): 最近の生成モデルは、テキストのプロンプトに基づいて現実的で視覚的に喜ばしい画像を生成するという印象的な能力を示している。
それでも、ストーリービジュアライゼーションのより複雑なタスクにこれらのモデルを適用することには、大きな課題が残っている。
フレーム記述における代名詞(彼、彼女、彼ら)の解決、すなわちアナフォラ分解、フレーム間の一貫した文字と背景合成が必要である。
しかし、新興のLarge Language Model(LLM)は曖昧な参照をナビゲートし、広範囲なシーケンスを処理する堅牢な推論能力を示している。
そこで本研究では,LLMとLDMの長所を生かして,与えられたストーリー記述に基づいて,一貫した高品質なキャラクタを持つ画像を生成する方法として,emph{StoryGPT-V}を提案する。
まず,文字分割マスクを用いたクロスアテンションマップの監視を取り入れ,文字生成精度と忠実度を高めることを目的とした文字認識型LDMを学習する。
第2段階では、LLMの出力と第1段モデルの入力空間に存在する文字拡張埋め込みのアライメントを可能にする。
このことは、あいまいな参照に対処するLLMの推論能力と、コンテキストを記憶する理解能力を活用する。
2つのビジュアル・ストーリー・ビジュアライゼーション・ベンチマークで包括的な実験を行った。
本モデルでは,より優れた定量化結果が得られ,メモリ消費の少ない顕著な品質のキャラクタを一貫して生成する。
私たちのコードは以下に公開されています。 \href{https://xiaoqian-shen.github.io/StoryGPT-V}{https://xiaoqian-shen.github.io/StoryGPT-V}。
関連論文リスト
- PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization [36.14275850149665]
本稿では,様々なストーリー関連知識を包括的に表現した新しい知識グラフ,すなわちキャラクタグラフ(textbfCG)を提案する。
次に、リッチテキストセマンティクスと一貫したストーリー視覚化が可能な、キャラクタグラフ(textbfC-CG)によるカスタマイズを実現するイメージジェネレータであるStoryWeaverを紹介する。
論文 参考訳(メタデータ) (2024-12-10T10:16:50Z) - Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。
近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。
この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文 参考訳(メタデータ) (2024-12-04T07:26:44Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Improving Visual Storytelling with Multimodal Large Language Models [1.325953054381901]
本稿では,大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)を活用した新しいアプローチを提案する。
様々な視覚的ストーリーからなる新しいデータセットを導入し、詳細なキャプションとマルチモーダル要素を付加する。
本手法では,教師付き学習と強化学習を組み合わせてモデルを微調整し,物語生成能力を向上する。
論文 参考訳(メタデータ) (2024-07-02T18:13:55Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。