論文の概要: VisAgent: Narrative-Preserving Story Visualization Framework
- arxiv url: http://arxiv.org/abs/2503.02399v1
- Date: Tue, 04 Mar 2025 08:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:01.544474
- Title: VisAgent: Narrative-Preserving Story Visualization Framework
- Title(参考訳): VisAgent: 物語を保存するストーリービジュアライゼーションフレームワーク
- Authors: Seungkwon Kim, GyuTae Park, Sangyeon Kim, Seung-Hun Nam,
- Abstract要約: VisAgentはトレーニング不要のフレームワークで、特定のストーリーの中で重要なシーンを理解し視覚化するように設計されている。
ストーリーの蒸留、セマンティック一貫性、コンテキストコヒーレンスを考慮することで、VisAgentはエージェントワークフローを採用している。
実証的に検証された有効性は、現実的なストーリービジュアライゼーションアプリケーションに対するフレームワークの適合性を確認する。
- 参考スコア(独自算出の注目度): 5.86192577938549
- License:
- Abstract: Story visualization is the transformation of narrative elements into image sequences. While existing research has primarily focused on visual contextual coherence, the deeper narrative essence of stories often remains overlooked. This limitation hinders the practical application of these approaches, as generated images frequently fail to capture the intended meaning and nuances of the narrative fully. To address these challenges, we propose VisAgent, a training-free multi-agent framework designed to comprehend and visualize pivotal scenes within a given story. By considering story distillation, semantic consistency, and contextual coherence, VisAgent employs an agentic workflow. In this workflow, multiple specialized agents collaborate to: (i) refine layered prompts based on the narrative structure and (ii) seamlessly integrate \gt{generated} elements, including refined prompts, scene elements, and subject placement, into the final image. The empirically validated effectiveness confirms the framework's suitability for practical story visualization applications.
- Abstract(参考訳): ストーリー・ヴィジュアライゼーション(Story Visualization)とは、物語要素をイメージ・シーケンスに変換すること。
既存の研究は主に視覚的文脈的コヒーレンスに焦点を当てているが、物語の深い物語の本質はしばしば見過ごされている。
この制限は、生成された画像が物語の意味やニュアンスを完全に捉えるのに失敗するので、これらのアプローチの実践的な適用を妨げる。
これらの課題に対処するために、トレーニング不要なマルチエージェントフレームワークであるVisAgentを提案する。
ストーリーの蒸留、セマンティック一貫性、コンテキストコヒーレンスを考慮することで、VisAgentはエージェントワークフローを採用している。
このワークフローでは、複数の特殊エージェントが協力します。
一 物語構造及び内容に基づく精巧な層状プロンプト
i) 精巧なプロンプト、シーン要素、主題配置を含む \gt{ generated} 要素を最終画像にシームレスに統合する。
実証的に検証された有効性は、実際のストーリービジュアライゼーションアプリケーションに対するフレームワークの適合性を確認する。
関連論文リスト
- Story-Adapter: A Training-free Iterative Framework for Long Story Visualization [14.303607837426126]
本稿では,ストーリーアダプタ(Story-Adapter)と呼ばれる学習自由で計算効率の良いフレームワークを提案する。
私たちのフレームワークの中心は、トレーニング不要なグローバル参照のクロスアテンションモジュールで、前回のイテレーションから生成されたすべてのイメージを集約します。
実験は、きめ細かい相互作用のためのセマンティック一貫性と生成能力の両方を改善する上で、ストーリー・アダプタの優位性を検証する。
論文 参考訳(メタデータ) (2024-10-08T17:59:30Z) - DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts [27.218934418961197]
データストーリ生成のための新しいタスクと,さまざまなソースから1,449のストーリを含むベンチマークを導入する。
2つのLLMエージェントを用いたマルチエージェントフレームワークを提案する。
我々のエージェント・フレームワークは一般的にモデルベースと人的評価の両方において非エージェント・フレームワークよりも優れていますが、結果はデータ・ストーリー・ジェネレーションにおけるユニークな課題を明らかにします。
論文 参考訳(メタデータ) (2024-08-09T21:31:33Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Make-A-Storyboard: A General Framework for Storyboard with Disentangled
and Merged Control [131.1446077627191]
本稿では,映画制作に触発されたストーリーボード(Storyboard)という,ストーリービジュアライゼーションのための新しいプレゼンテーション形式を提案する。
ストーリーボードの各シーンの中で、キャラクターは同じ場所で活動し、視覚的に一貫したシーンとキャラクターの両方を必要とする。
当社の手法は,主流のイメージカスタマイズ手法にシームレスに統合され,ストーリービジュアライゼーションの能力を活用できる。
論文 参考訳(メタデータ) (2023-12-06T12:16:23Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。