論文の概要: Audit & Repair: An Agentic Framework for Consistent Story Visualization in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.18900v1
- Date: Mon, 23 Jun 2025 17:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.121958
- Title: Audit & Repair: An Agentic Framework for Consistent Story Visualization in Text-to-Image Diffusion Models
- Title(参考訳): 監査と修復: テキスト・画像拡散モデルにおける一貫したストーリー可視化のためのエージェント・フレームワーク
- Authors: Kiymet Akdemir, Tahira Kazimi, Pinar Yanardag,
- Abstract要約: 本稿では,マルチパネル・ストーリー・ビジュアライゼーションにおける不整合を自律的に識別し,修正し,洗練する,協調型マルチエージェント・フレームワークを提案する。
エージェントは反復ループで動作し、全シーケンスを生成せずに、きめ細かいパネルレベルの更新を可能にする。
- 参考スコア(独自算出の注目度): 3.3454373538792552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Story visualization has become a popular task where visual scenes are generated to depict a narrative across multiple panels. A central challenge in this setting is maintaining visual consistency, particularly in how characters and objects persist and evolve throughout the story. Despite recent advances in diffusion models, current approaches often fail to preserve key character attributes, leading to incoherent narratives. In this work, we propose a collaborative multi-agent framework that autonomously identifies, corrects, and refines inconsistencies across multi-panel story visualizations. The agents operate in an iterative loop, enabling fine-grained, panel-level updates without re-generating entire sequences. Our framework is model-agnostic and flexibly integrates with a variety of diffusion models, including rectified flow transformers such as Flux and latent diffusion models such as Stable Diffusion. Quantitative and qualitative experiments show that our method outperforms prior approaches in terms of multi-panel consistency.
- Abstract(参考訳): ストーリービジュアライゼーションは、複数のパネルにまたがる物語を描くために視覚的なシーンが生成される一般的なタスクとなっている。
この設定における中心的な課題は、特にキャラクターやオブジェクトがストーリー全体を通してどのように持続し、進化するかにおいて、視覚的一貫性を維持することである。
近年の拡散モデルの発展にもかかわらず、現在のアプローチはしばしばキーキャラクタの属性を保存できず、一貫性のない物語に繋がる。
本研究では,マルチパネル・ストーリー・ビジュアライゼーションにおける不整合を自律的に識別し,修正する,協調型マルチエージェント・フレームワークを提案する。
エージェントは反復ループで動作し、全シーケンスを生成せずに、きめ細かいパネルレベルの更新を可能にする。
我々のフレームワークはモデルに依存しず、フラックスのような整流流トランスフォーマーや安定拡散のような潜水拡散モデルを含む様々な拡散モデルと柔軟に統合される。
定量的および定性的な実験により,本手法は複数パネルの整合性において先行手法より優れていることが示された。
関連論文リスト
- VisAgent: Narrative-Preserving Story Visualization Framework [5.86192577938549]
VisAgentはトレーニング不要のフレームワークで、特定のストーリーの中で重要なシーンを理解し視覚化するように設計されている。
ストーリーの蒸留、セマンティック一貫性、コンテキストコヒーレンスを考慮することで、VisAgentはエージェントワークフローを採用している。
実証的に検証された有効性は、現実的なストーリービジュアライゼーションアプリケーションに対するフレームワークの適合性を確認する。
論文 参考訳(メタデータ) (2025-03-04T08:41:45Z) - Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。