論文の概要: Plot'n Polish: Zero-shot Story Visualization and Disentangled Editing with Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.04446v1
- Date: Thu, 04 Sep 2025 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.255323
- Title: Plot'n Polish: Zero-shot Story Visualization and Disentangled Editing with Text-to-Image Diffusion Models
- Title(参考訳): Plot'n Polish: テキスト-画像拡散モデルによるゼロショットストーリーの可視化とアンタングル編集
- Authors: Kiymet Akdemir, Jing Shi, Kushal Kafle, Brian Price, Pinar Yanardag,
- Abstract要約: Plot'n Polishは、一貫したストーリー生成を可能にするゼロショットフレームワークであり、様々なレベルの詳細でストーリーの可視化をきめ細かいコントロールを提供する。
- 参考スコア(独自算出の注目度): 17.541927454984318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have demonstrated significant capabilities to generate diverse and detailed visuals in various domains, and story visualization is emerging as a particularly promising application. However, as their use in real-world creative domains increases, the need for providing enhanced control, refinement, and the ability to modify images post-generation in a consistent manner becomes an important challenge. Existing methods often lack the flexibility to apply fine or coarse edits while maintaining visual and narrative consistency across multiple frames, preventing creators from seamlessly crafting and refining their visual stories. To address these challenges, we introduce Plot'n Polish, a zero-shot framework that enables consistent story generation and provides fine-grained control over story visualizations at various levels of detail.
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルでは,様々な領域で多種多様なビジュアルを生成できることが示されており,物語の可視化が特に有望なアプリケーションとして現れつつある。
しかし、現実の創造的領域での利用が増加するにつれて、コントロールの強化、洗練、一貫した方法で画像の修正を行う能力の必要性が重要な課題となっている。
既存の方法は、複数のフレームにわたる視覚的および物語的一貫性を維持しながら、細かな編集や粗い編集を適用する柔軟性に欠けており、クリエイターが視覚的なストーリーをシームレスに作り、洗練することを防ぐ。
これらの課題に対処するために,一貫したストーリー生成を可能にするゼロショットフレームワークであるPlot'n Polishを紹介した。
関連論文リスト
- StorySync: Training-Free Subject Consistency in Text-to-Image Generation via Region Harmonization [31.250596607318364]
既存のアプローチは、通常、微調整または再訓練モデルに依存し、計算コストが高く、時間がかかり、しばしば既存のモデルの能力に干渉する。
本稿では,効率的な一貫したオブジェクト生成法を提案する。
実験により,様々なシナリオにまたがって,視覚的に一貫した被写体を生成することができた。
論文 参考訳(メタデータ) (2025-07-31T11:24:40Z) - Audit & Repair: An Agentic Framework for Consistent Story Visualization in Text-to-Image Diffusion Models [3.3454373538792552]
本稿では,マルチパネル・ストーリー・ビジュアライゼーションにおける不整合を自律的に識別し,修正し,洗練する,協調型マルチエージェント・フレームワークを提案する。
エージェントは反復ループで動作し、全シーケンスを生成せずに、きめ細かいパネルレベルの更新を可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:29Z) - Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models [3.7599363231894185]
単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。
我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れています。
論文 参考訳(メタデータ) (2024-06-04T23:39:08Z) - MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual
Storytelling via Multi-Layered Semantic-Aware Denoising [42.20750912837316]
MagicScrollはプログレッシブ拡散に基づく画像生成フレームワークであり、新しいセマンティック・アウェア・デノナイジング・プロセスを備えている。
オブジェクト、シーン、背景のレベルで生成された画像を、テキスト、画像、レイアウト条件できめ細かく制御できる。
物語のテキストの整合性、視覚的コヒーレンスの改善、オーディエンスへのエンゲージメントなど、有望な成果が紹介されている。
論文 参考訳(メタデータ) (2023-12-18T03:09:05Z) - DiffuVST: Narrating Fictional Scenes with Global-History-Guided
Denoising Models [6.668241588219693]
ビジュアルなストーリーテリングは、現実のイメージを超えてますます求められている。
一般的に自己回帰デコーダを使用する現在の技術は、推論速度が低く、合成シーンには適していない。
本稿では,一連の視覚的記述を単一条件記述プロセスとしてモデル化する拡散型システムDiffuVSTを提案する。
論文 参考訳(メタデータ) (2023-12-12T08:40:38Z) - AutoStory: Generating Diverse Storytelling Images with Minimal Human
Effort [55.83007338095763]
本稿では,多種多様で高品質で一貫したストーリーイメージを効果的に生成できる自動ストーリー可視化システムを提案する。
本研究では,大規模言語モデルの理解と計画能力をレイアウト計画に利用し,大規模テキスト・画像モデルを用いて高度なストーリー画像を生成する。
論文 参考訳(メタデータ) (2023-11-19T06:07:37Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。