論文の概要: LLMs Behind the Scenes: Enabling Narrative Scene Illustration
- arxiv url: http://arxiv.org/abs/2509.22940v1
- Date: Fri, 26 Sep 2025 21:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.945209
- Title: LLMs Behind the Scenes: Enabling Narrative Scene Illustration
- Title(参考訳): LLMの舞台裏 - ナラティブ・シーン・イラストレーションの展開
- Authors: Melissa Roemmele, John Joon Young Chung, Taewook Kim, Yuqian Sun, Alex Calderwood, Max Kreminski,
- Abstract要約: 本研究では、物語のシーンを描写した画像を自動的に生成するストーリーシーンイラストアのタスクに焦点を当てる。
近年のテキスト・ツー・イメージ・モデルの発展により,LLMをテキスト・ツー・イメージ・モデルを促進するインタフェースとして利用するパイプラインが検討されている。
このパイプラインのバリエーションを顕著なストーリーコーパスに適用し、これらのストーリーのシーンのイラストを合成する。
- 参考スコア(独自算出の注目度): 16.01007495951529
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI has established the opportunity to readily transform content from one medium to another. This capability is especially powerful for storytelling, where visual illustrations can illuminate a story originally expressed in text. In this paper, we focus on the task of narrative scene illustration, which involves automatically generating an image depicting a scene in a story. Motivated by recent progress on text-to-image models, we consider a pipeline that uses LLMs as an interface for prompting text-to-image models to generate scene illustrations given raw story text. We apply variations of this pipeline to a prominent story corpus in order to synthesize illustrations for scenes in these stories. We conduct a human annotation task to obtain pairwise quality judgments for these illustrations. The outcome of this process is the SceneIllustrations dataset, which we release as a new resource for future work on cross-modal narrative transformation. Through our analysis of this dataset and experiments modeling illustration quality, we demonstrate that LLMs can effectively verbalize scene knowledge implicitly evoked by story text. Moreover, this capability is impactful for generating and evaluating illustrations.
- Abstract(参考訳): 生成AIは、コンテンツをある媒体から別の媒体に簡単に変換する機会を確立した。
この能力は特にストーリーテリングにおいて強力で、視覚的なイラストはもともとテキストで表現されたストーリーを照らすことができる。
本稿では,物語中のシーンを描写した画像を自動的に生成する,物語シーンイラストの課題に焦点を当てる。
近年のテキスト・ツー・イメージ・モデルの発展にともなって,LLMをテキスト・ツー・イメージ・モデルに使用するパイプラインを,生のストーリー・テキストからシーン・イラストを生成するためのインタフェースとして検討している。
このパイプラインのバリエーションを顕著なストーリーコーパスに適用し、これらのストーリーのシーンのイラストを合成する。
これらの図面に対して,人間のアノテーションタスクを行ない,ペアワイズな品質判断を行う。
このプロセスの成果はSceneIllustrationsデータセットであり、このデータセットは将来のクロスモーダルな物語変換のための新しいリソースとしてリリースされます。
このデータセットの分析と、イラストの質をモデル化した実験を通して、LLMが物語テキストによって暗黙的に誘発されるシーン知識を効果的に言語化できることを実証する。
さらに、この能力はイラストを作成して評価するのにも有効である。
関連論文リスト
- From Image Captioning to Visual Storytelling [2.0333131475480917]
この作業の目的は、ビジュアルストーリーテリングをイメージキャプションのスーパーセットとして扱うことで、これらの側面のバランスをとることである。
これは、まず、入力画像のキャプションを取得するために視覚-言語モデルを使用し、その後、これらのキャプションを言語-言語手法を用いてコヒーレントな物語に変換することを意味する。
本評価は,キャプションとストーリーテリングを統合した枠組みで統合することで,生成したストーリーの品質に肯定的な影響を与えることを示す。
論文 参考訳(メタデータ) (2025-07-31T16:44:23Z) - Imagining from Images with an AI Storytelling Tool [0.27309692684728604]
提案手法は,GPT-4oの視覚的コンテンツを解釈し,エンゲージメントなストーリーを作成するためのマルチモーダル機能について検討する。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
論文 参考訳(メタデータ) (2024-08-21T10:49:15Z) - Locate, Assign, Refine: Taming Customized Promptable Image Inpainting [22.163855501668206]
本稿では,マルチモーダル・プロンプト・イメージ・インパインティング・プロジェクト,新しいタスクモデル,カスタマイズされたイメージ・インパインティングのためのデータを紹介する。
マスクプロンプトに対応する画像中の特定の領域をシームレスに塗布できる,画像塗布の新しいアプローチであるLAR-Genを提案する。
我々のLAR-Genは、ソースイメージのコンテキスト整合性、主観的アイデンティティ整合性、テキスト記述に対する局所的セマンティック整合性、滑らか性整合性を保証するために粗大な方法で採用しています。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Visualize Before You Write: Imagination-Guided Open-Ended Text
Generation [68.96699389728964]
我々は、機械生成画像を用いて、オープンエンドテキスト生成における言語モデルをガイドするiNLGを提案する。
オープンエンドテキスト生成タスクにおけるiNLGの有効性について実験と解析を行った。
論文 参考訳(メタデータ) (2022-10-07T18:01:09Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。