論文の概要: Customized Visual Storytelling with Unified Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2603.27690v1
- Date: Sun, 29 Mar 2026 13:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.071664
- Title: Customized Visual Storytelling with Unified Multimodal LLMs
- Title(参考訳): 統一型マルチモーダルLCMによるカスタマイズ型ビジュアルストーリーテリング
- Authors: Wei-Hua Li, Cheng Sun, Chu-Song Chen,
- Abstract要約: VstoryGenは、記述と文字と背景参照を統合して、カスタマイズ可能なストーリー生成を可能にするフレームワークである。
映像データに対してパラメータ効率のよいプロンプトチューニングによるショット型制御を導入し,映像文法をより忠実に反映したシーケンスを生成する。
- 参考スコア(独自算出の注目度): 19.106229466343787
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal story customization aims to generate coherent story flows conditioned on textual descriptions, reference identity images, and shot types. While recent progress in story generation has shown promising results, most approaches rely on text-only inputs. A few studies incorporate character identity cues (e.g., facial ID), but lack broader multimodal conditioning. In this work, we introduce VstoryGen, a multimodal framework that integrates descriptions with character and background references to enable customizable story generation. To enhance cinematic diversity, we introduce shot-type control via parameter-efficient prompt tuning on movie data, enabling the model to generate sequences that more faithfully reflect cinematic grammar. To evaluate our framework, we establish two new benchmarks that assess multimodal story customization from the perspectives of character and scene consistency, text-visual alignment, and shot-type control. Experiments demonstrate that VstoryGen achieves improved consistency and cinematic diversity compared to existing methods.
- Abstract(参考訳): マルチモーダルストーリーのカスタマイズは、テキスト記述、参照ID画像、ショットタイプに基づくコヒーレントなストーリーフローを生成することを目的としている。
最近のストーリー生成の進歩は有望な結果を示しているが、ほとんどのアプローチはテキストのみの入力に依存している。
いくつかの研究は、文字識別の手がかり(例えば、顔のID)を取り入れているが、より広いマルチモーダル条件がない。
本稿では,記述を文字や背景参照と統合し,カスタマイズ可能なストーリー生成を可能にするマルチモーダルフレームワークであるVstoryGenを紹介する。
映画の多様性を高めるために,映画データに対してパラメータ効率のよいプロンプトチューニングによるショット型制御を導入し,より忠実に映画文法を反映したシーケンスを生成する。
本フレームワークを評価するために,キャラクタとシーンの一貫性,テキスト・ビジュアルアライメント,ショット型制御の観点から,マルチモーダルストーリーのカスタマイズを評価する2つの新しいベンチマークを構築した。
実験により、VstoryGenは既存の方法と比較して一貫性と映画の多様性を改善していることが示された。
関連論文リスト
- Persistent Story World Simulation with Continuous Character Customization [85.65195925369268]
本稿では,連続したストーリーキャラクタをカスタマイズするためのストーリーワールドシミュレータであるEverTaleを紹介する。
私たちのEverTaleは、シングルキャラクタとマルチキャラクタの両方のストーリービジュアライゼーションにおいて、より広範な比較手法に対して優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2026-03-17T09:17:10Z) - ViStoryBench: Comprehensive Benchmark Suite for Story Visualization [23.274981415638837]
ViStoryBenchは、さまざまな物語構造、視覚スタイル、キャラクター設定にわたるストーリービジュアライゼーションモデルを評価するために設計された包括的なベンチマークである。
ベンチマークでは、文学、映画、民俗学にまたがるキュレートされたストーリーから派生した、豊富な注釈付きマルチショットスクリプトが特徴である。
徹底的な評価を可能にするために、ViStoryBenchは、文字の一貫性、スタイルの類似性、迅速な順守、美的品質、生成アーティファクトを評価する一連の自動メトリクスを導入した。
論文 参考訳(メタデータ) (2025-05-30T17:58:21Z) - One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance [29.768141136041454]
分離されたテキストをベースとした新しいマルチキャラクタ・ビデオ生成フレームワークを提案する。
具体的には、まずポーズシーケンスから文字マスクを抽出し、各生成文字の空間的位置を識別し、各文字の単一プロンプトをLLMで取得する。
ビデオ生成結果の可視化により,本手法の精度の高いマルチキャラクタ生成の可能性を示した。
論文 参考訳(メタデータ) (2024-12-21T05:49:40Z) - Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。